Обобщение методов

Обобщение методов Эти идеи представляют собой обобщение методов. Мы можем также реализовать вариант статического упорядочения, в котором каждый инвертированный список упорядочен на основе аддитивной комбинации статических рангов и динамических показателей, зависящих от запроса. В этом случае согласованность упорядочения инвертированных списков также нарушается и, следовательно, термины запроса необходимо обрабатывать поочередно, накапливая релевантность для всех просмотренных документов. В зависимости от конкретных функций ранжирования ин-вертированный список для документа можно упорядочить в соответствии с другими показателями, отличающимися от частоты термина; эта более общая схема называется упорядочением по важности (impact ordering).

Парсер запроса и ранжирование

Обычно интерфейсы поисковых систем, особенно систем, ориентированных на массового пользователя в сети веб, стараются замаскировать операторы запроса от конечного пользователя, чтобы скрыть сложность этих операторов от неподготовленной аудитории, поощряя ее вводить свободные текстовые запросы (free text queries). Как же поисковая система, оснащенная таким интерфейсом и индексами для разных операторов поиска, должна обрабатывать запрос наподобие rising interest rates? Или, обобщая вопрос, как учесть все факторы, влияющие на релевантность документа?

Разумеется, ответ зависит от пользовательской аудитории, распределения запросов и коллекции документов. Для преобразования нескольких ключевых слов, набранных пользователем, в запрос с операторами, который поступает в индексы, используется парсер запросов (queiy parser). Иногда эта операция может повлечь за собой выполнение нескольких запросов к различным индексам; например, парсер может построить серию запросов.

1.Сначала запрос пользователя обрабатывается, как фразовый. Затем он ранжируется с помощью метода векторного пространства, который интерпретирует запрос, как вектор, состоящий из трех терминов: rising interest rates.

2.Если фраза rising interest rates содержится меньше чем в десяти документах, то генерируются два двусловных запроса: rising interest и interest rates. Документы снова ранжируются на основе модели векторного пространства.

3.Если у нас по-прежнему меньше десяти результатов, то генерируются три однословных запроса, которые также ранжируются на основе модели векторного пространства.

На каждом из этих этапов (если они выполняются) возникает список оцененных документов, для каждого из которых необходимо вычислить итоговую релевантность. Она может учитывать релевантность, определенную по модели векторного пространства, статический ранг, меру близости и, возможно, другие факторы, поскольку документ может быть включен в списки найденных документов на разных этапах. Необходима агрегирующая функция ранжирования, накапливающая свидетельства релевантности документов, полученные из разных источников. Как разработать такой парсер запроса и как создать такую агрегирующую функцию ранжирования?

Ответ зависит от ситуации. Во многих корпоративных системах конечное приложение строится с использованием набора доступных операторов ранжирования и гибкого парсера запроса: функции ранжирования и парсер настраиваются вручную. Для настройки используются имеющиеся в коллекции зоны, метаданные и знания о типичных документах и запросах. В корпоративных приложениях значительные изменения коллекции и свойств запросов обычно редки и связаны с такими событиями, как внедрение нового формата документов или системы документооборота, а также слияние с другой фирмой. Иначе обстоит дело при веб-поиске, который связан с непрерывно изменяющейся коллекцией документов, в которой новые факторы возникают постоянно. Кроме того, количество факторов, влияющих на релевантность, может достигать нескольких сотен, что делает ручной подбор параметров сложной задачей. Для решения этой проблемы обычно используются методы машинного обучения, расширяющие идеи.

tel-icq