Булев поиск

Булев поиск Очевидно, что для обработки булева запроса можно использовать индекс, построенный в модели векторного пространства, поскольку вес термина t в векторе документа d не равен нулю, если термин t содержится в документе d Обратное утверждение неверно; булев индекс не обязан по умолчанию содержать информацию о весе термина. С точки зрения пользователя, объединить векторное пространство и булевы запросы непросто. Запросы в векторном пространстве по своей сути представляют собой форму накопления свидетельств (evidence accumulation), при которой наличие большого количества терминов в документе повышает его релевантность. С другой стороны, булев поиск требует от пользователя указывать формулу для выбора документов с помощью комбинаций ключевых слов без указания какого бы то ни было относительного порядка между ними. С математической точки зрения для сочетания булевых запросов и запросов в векторном пространстве можно применять так называемые р-нормы, во нам неизвестны системы, использующие этот факт.

Запросы с джокером

Запросы с джокером и запросы в векторном пространстве требуют разных индексов (за исключением базового уровня), которые можно реализовать с помощью словопозиций и словаря (например, словарь триграмм для шаблонных запросов). Если поисковая система позволяет пользователю применять оператор с джокером в свободном текстовом запросе (например, запрос rom* restourant), то компонент запроса с джокером можно реализовать как “размножение” терминов в векторном пространстве (в данном случае двумя такими терминами являются слова готе и roman) и каждый из которых добавляется в вектор запроса. Таким образом, вектор запроса обрабатывается, а документы сравниваются и ранжируются, как обычно. Следовательно, документ, содержащий оба термина, готе и гота, скорее всего, будет иметь более высокую релевантность, чем документ, содержащий только одно из этих слов. Разумеется, точное ранжирование зависит от относительных весов каждого термина в найденных документах.

tel-icq