Системы полнотекстного поиска
Сегодня рынок предлагает значительный перечень всевозможных поисковых утилит, программ и систем разного уровня. Программное обеспечение этого класса бывает двух типов*. {Градский П. Поисковые системы. // Санкт?Петербургские ведомости //, 26 июня 2002 года; Дериев И. Особенности национального поиска. // Компьютерное Обозрение // № 15,17–23 апреля 2002. Уваров С. Ищущие да обрящут. http://nrd.pnpi.spb.ru/UseSoft/Journals/IntemetZone/izone229/pub/izone8.htm www.cronos.ru}
Программные продукты использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Недостатком этой технологии являются значительные временные затраты. Аналогичные утилиты традиционно присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах.
1. Поисковик AVSearch. Если у вас совсем нет денег, то вам может помочь бесплатная программа Анатолия Вознюка — AVSearch (www.avtlab.ru). Однако этот программный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает «поддержку» и формата DOC, т. к. документы Microsoft Word исследуются как обычный текст. Программа осуществляет поиск во всех популярных архивах без использования внешних модулей. Ее интерфейс достаточно прост и удобен. В общем программа неплохая, но ее существенным недостатком является медлительность.
2. Поисковик SSScanner с достаточно высокой скоростью работает с документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный. Результаты отображаются в отдельном окне с выдержками из оригинальных документов. SSScanner стоит около $30, условно?бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием. Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая собственную базу данных («индекс»), по которой затем и осуществляется поиск. Индексирование ?процесс достаточно длительный, но зато поиск занимает считанные секунды. До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства. Однако для мощных современных компьютеров это не существенно. Некоторое неудобство по?прежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
Начнем свое рассмотрение этого сегмента рынка полнотекстовых поисковиков с западных образцов.
1. Поисковик Advanced Document Server http://ads.newmail.ru/1 занимает немного дискового пространства, распространяется бесплатно, имеет массу возможностей: поддержка документов Microsoft Office, PDF, некоторых баз данных; поиск в архивных файлах; встроенный Web?сервер для удаленного доступа. Правда, имеется одно существенное «но»: для работы почти с каждым форматом необходимо «родное» ПО. Для DOC — Microsoft Word, для XLS — Excel, для PDF — полноценный Adobe Acrobat, а также Internet Explorer, архиваторы и пр.
И если многие, кто работает с документами Word, используют само приложение (хотя у Microsoft есть и специальная программа просмотра), то для PDF этот принцип уже не подходит. Помимо этого, применение средств автоматизации OLE в данном случае крайне негативно сказывается на производительности.
2. Программное обеспечение Greenstone предназначено для создания «цифровых библиотек», что подразумевает нечто большее, чем просто поиск с предварительным индексированием по документам DOC, PDF и пр. Этот программный продукт создает каталог документов, конвертирует их в HTML?формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно, с исходными текстами. Правда, работает довольно медленно.
3. Поисковик dtSearch Desktop (автоматически распознает различные кодировки, в том числе и кириллические (за исключением KOI?8), а также пару десятков форматов файлов, среди которых стоит выделить DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, плюс популярные базы данных (через ODBC). В БД и гипертекстовых документах возможен поиск по содержимому конкретных полей и тегов. Даже защищенные PDF индексируются, но получить их названия и другие атрибуты программа не может. Несомненным достоинством программы является поиск в архивах ZIP.
По виду поиска используются: морфологический, фонетический, поиск синонимов, а также поиск в словах с орфографическими ошибками. Помимо этого, dtSearch Desktop предлагает пользователю словарь (построенный в процессе создания индекса) и при вводе запроса выполняет в нем автоматический поиск.
В качестве недостатка можно отметить только английский интерфейс программы. Стоит dtSearch Desktop около $200.
Российское программное обеспечение. По своим поисковым возможностям отечественные разработки имеют определенное преимущество перед западными, поскольку их разработчики априори лучше иностранцев разбираются во всевозможных лингвистических нюансах нашего государственного языка.
1. Поисковик " Ищейка " www.isleuthhound.com или http://www.isleuthhound.ru) (iSleuthHound Technologies).
«Ищейка» — это полнотекстовая персональная поисковая система, работа с которой напоминает работу в поисковых системах Интернета, таких как AltaVista, Yahoo, Rambler. При первом запуске она создает базу данных по имеющимся документам и индексирует ее. Каждая база данных представляет собой зону поиска — пространство на жестком диске, состоящее из каталогов, в пределах которого программа мгновенно находит документы и файлы. Тест?версия программы поддерживает возможность создания лишь двух зон поиска с индексированием в каждой максимально 500 файлов. Перед проведением поиска документов «Ищейке» необходимо указать зону поиска или создать новую, после чего ввести в окошке диалогового окна ключевые слова, которые должен содержать документ, и нажать кнопку Ищи!
Бесплатная версия «Ищейки» работает только с текстовыми и DOC?файлами, профессиональная ($15) еще с RTF и HTML. Помимо этого для профессиональной версии имеется набор дополнительных подключаемых фильтров — для текста во всех кодировках, документов других приложений Microsoft Office и PDF.
Поддержка PDF появилась в программе недавно, и пока этот модуль «не понимает» русского языка, хотя представители компании обещают устранить этот недостаток в самое ближайшее время. Зато модуль великолепно работает с защищенными документами — не только индексирует их содержимое, но и способен корректно определить название и даже извлечь текст.
2. Интеллектуальная поисковая система «Следопыт» ( («МедиаЛингва»). Последняя версия программы для хранения информации использует Microsoft SQL Server Desktop Edition. В ней устранены практически все замечания и вопросы, которые возникали прежде.
По своей функциональности «Следопыт» напоминает dtSearch. В распоряжении пользователей несколько вариантов поиска: нечеткий, т. е. «на естественном языке», система сама отбросит «шумовые» слова, а остальные приведет к морфологической основе; строгий, при котором ищутся в точности те слова, что указаны в запросе; формальный — с логическими и другими операторами и возможностью комбинирования двух предыдущих.
Поддерживаются текстовые файлы в самых разных кодировках, документы основных приложений Microsoft Office, PDF?файлы, в том числе и упакованные в zip?архивы, а также папки (как сами сообщения, так и вложения) Microsoft Outlook. Следует отметить, что используемые фильтры достаточно «честные», они работают с DOC?файлами именно как с документами Word, не индексируют PDF?файлы, защищенные от копирования информации, и т. д. — естественно, это может быть расценено двояко. Тем не менее PDF?фильтр из «Следопыта» показался одним из лучших при работе с русским языком.