Словари и нечеткий поиск

Словари и нечеткий поискРанее изложены идеи, лежащие в основе инвертированных индексов, которые предназначены для обработки булевых запросов и запросов с учетом близости слов запроса в документе. В данной статье рассматриваются методы, устойчивые к опечаткам в запросах и альтернативным вариантам написания слов, описываются структуры данных, облегчающие поиск терминов в лексиконе инвертированного индекса. Исследуется идея о запросе с джокерами (wildcard query), т.е. о запросе, имеющем вид a*e*i*o*u* и предназначенном для поиска документов, содержащих любой термин, в который входят все пять гласных букв в указанном порядке. Символ * означает любую (возможно, пустую) строку символов. Пользователи посылают такие запросы в поисковые системы, когда они сомневаются в правильном написании термина или ищут документы, содержащие разные варианты указанного термина; например, запрос automat* предназначен для поиска документов, содержащих термин automatic, automation или automated.

Рассматриваются другие формы неточно сформулированных запросов с акцентом на орфографические ошибки. Пользователи делают орфографические ошибки либо случайно, либо потому, что искомый термин (например, Herman) в коллекции документов может встречаться в различных вариантах написания. В этом разделе подробно описывается множество приемов исправления орфографических ошибок как в отдельных терминах, так и во всей строке запроса в целом. Рассматривается метод поиска в лексиконе фонетически схожих терминов. Это может оказаться особенно полезным в ситуациях, когда пользователь не знает точно, как пишется имя собственное в документах из коллекции (например, при поиске имени Herman). Китайская компания Yue Da (Харбин)

Поскольку в этой статье разрабатываются разные варианты инвертированных индексов, мы иногда используем выражение стандартный инвертированный индекс (standard inverted index), подразумевая инвертированный индекс, т.е. индекс, в котором каждому проиндексированному термину соответствует инвертированный список, в котором перечислены документы из коллекции.

tel-icq