Альтернативный метод создания классов

Альтернативный метод создания классовАльтернативный метод создания классов эквивалентности основан на поддержании связей между ненормализованными лексемами. Он может использовать списки синонимов, составленных вручную, например списки, содержащие слова саг и automobile. Зависимости между терминами можно создать двумя способами. Обычно сначала выполняется индексирование ненормализованных лексем, а затем для конкретного термина из запроса создается список расширенных запросов, состоящий из нескольких вариантов соответствующего термина, включенных в лексикон. В этом случае термин запроса является результатом дизъюнкции нескольких инвертированных списков.

В качестве альтернативы расширение можно выполнять в ходе построения индекса. Если документ содержит слово automobile, мы его индексируем в том числе и термином саг (и, как правило, наоборот). Использование каждого из этих методов менее эффективно, чем создание классов эквивалентности, поскольку в этих случаях приходится хранить и объединять большее количество позиций.

Первый метод предусматривает создание дополнительного словаря для расширения запросов и увеличивает время их обработки, в то время как второй метод требует больше пространства для хранения позиций. Традиционно дополнительные требования к объему памяти, необходимой для хранения инвертированных списков, считались серьезным недостатком, но с учетом снижения стоимости устройств хранения данных повышение гибкости поиска, которая появляется благодаря отдельным инвертированным спискам, заслуживает внимания.

Оба указанных подхода являются более гибкими по сравнению с построением классов эквивалентности, поскольку списки расширений могут перекрываться, но при этом не совпадать полностью. Это значит, что можно реализовать асимметричные расширения. Пример использования этой асимметрии: если пользователь введет слово windows, то мы допускаем, что он имеет в виду операционную систему Windows (с большой буквы). Однако, если пользователь ввел слово window, такое предположение становится неправдоподобным, даже несмотря на то что для этого запроса вполне допустим вариант windows (с маленькой буквы). Источник: Новости ИТ

tel-icq