« предыдущая статья | Все статьи | следующая »
Чемпионат по настольному поиску (программы для локального поиска)
Тихая революция
Российская линейка продуктов SearchInform (www.searchinform.com) окажется незаменимой в любом секторе, будь то корпоративная сеть предприятия или простой домашний компьютер. Десктопная версия (2,9 Мб) предлагается в двух модификациях: Standard (1500 руб) и Professional (3000 руб). Функциональные отличия обычной версии от профессиональной: нет возможности слияния и дефрагментации созданных индексов, ограничения поиска в источниках данных и отсутствие рубрикатора документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая создавать только один индекс. Впрочем, все определяется исключительно вашими потребностями.
Фирменная технология[9] позволяет работать с различными источниками информации, каковая может содержаться не только в файловых форматах (включая PDF, HTM и HTML, но и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция использования списков синонимов и выделения т.н. «важных слов».
По окончании установки и регистрации нам первым делом нам предложат загрузить и установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной морфологической базой. Дело в том, что использование морфологии является одним из важнейших приемов интеллектуального поиска текста, поскольку использование этого режима позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по всем его словоформам (например, «ложка - ложкой - ложки – ложечка»). Таким образом, жертвы на входящий трафик заумной морфологической субстанции, более чем оправданы (использование морфологии включается в Менеджере Индексов).
Пришла пора создавать индексационные базы (программа называет оные «индексами»), без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса. SearchInform порадовал тем, что позволяет выбирать папку для баз индекса, равно как исключать из области поиска ненужные каталоги[10]. Не забудьте еще раз подумать о целесообразности использования морфологических баз – по умолчанию переключатель «Использовать морфологию» отключен, равно как и индексация во внешних базах данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне крови при запуске «Следопыта»).
Обратите внимание на кнопку «Настройка» диалога создания нового индекса – по умолчанию программа начнет индексацию всех дисковых разделов, что увеличит время создания базы и размер оной. Выберем только то, что нам нужно: если вы не программист, то есть смысл выключить индексацию в разделе «Programming files». А далее остается ждать окончания процесса индексации. Разумеется, нет нужды создавать единственную базу, где будут свалены в кучу и офисные документы, и HTML-страницы. При необходимости точно так же создаются дополнительные индексы, подключаемые командой «Смонтировать индекс».
Процесс индексирования весьма нагляден, и демонстрирует не только скорость, но и количество обработанных документов, а также число уникальных слов, по которым будет осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20000 документов совокупным объемом около 580 Мб, был проиндексирован всего за 12 минут; объем проиндексированного контента составил 72 Мб. Да, SearchInform не индексировал графические и звуковые файлы – от него это и не требуется. Зато несколько десятков мегабайт индексационных баз смотрятся куда как выигрышнее на фоне почти полугигабайта индексных файлов поисковика от Google.
Теперь заставим SearchInform отработать свою цену: обычный вариант поиска (вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное количество документов, содержащих, в той или иной мере, искомые слова. Впрочем, нужные документы оказалась в первой пятерке. Если помните, Google Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел собственный гуманизм[11] по отношению к участникам софт-ринга: даешь запрос из трех тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает уникальной особенностью: в отличие от стандартного фразового поиска, здесь не требуется заранее подбирать ключевые слова – поиск осуществляется по всему документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи «Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки, но, увы – конфуз испытал ваш покорный слуга: программа через пару секунд выдала абсолютно точную ссылку на документ, причем, без всякой дополнительной «шелухи». Не испугал программу и поиск в архивах. Честно говоря, я не стал использовать секундомер для определения разницы во времени поиска среди обычных файлов и архивированных: практически один и тот же очень быстрый результат.
Дальнейшее глумление над софтиной порадовало старого софтверного волка: изменялся текст запроса, в который добавлялись произвольные фрагменты откровенной абракадабры, затем фразы менялись местами. Видит бог, мне очень хотелось «убить» программу, но, увы, мой порыв остался неудовлетворенным: даже в этом случае SearchInform таки нашел нужный документ. Ко всему прочему, работа программы практически не сказывается на быстродействии системы.
Однако, создание одного или нескольких индексов для действительно качественного поиска недостаточно. Для того, чтобы максимально использовать возможности SearchInform, потребуется более подробное знакомство с синонимами, стоп-словами и «важными словами» (программные термины). Более подробно об этих «хитрых зверьках» вы сможете прочесть в программной «Справке».
Система SearchInform легко интегрируется в информационную структуру предприятия, подключая различные источники данных, и имеет архитектуру клиент-сервер. Внедрение SearchInform не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время система позволяет объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.
« предыдущая статья | Все статьи | следующая »
Конечно, стоимость внедрения SearchInform намного выше цены на коробочный вариант, но именно такой заказная разработка для конкретных целей позволит максимально использовать функции, изначально заложенные в технологию и ПО от СофтИнформ. После получения нами заказа на внедрение проекта на базе SoftInform Search Technology, наши специалисты проведут информационный аудит информационной базы на Вашем предприятии и составят спектр функций будущей системы, максимально упростив ее разработку и развертывание.
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года.
Подробнее...
»
Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска».
iOne.ru
Подробнее...
» Вся пресса
|