Ранжирование в полнофункциональной поисковой системе

Ранжирование в полнофункциональной поисковой системе Была рассмотрена теория, лежащая в основе взвешивания терминов в документах для их ранжирования. Она привела нас к построению модели векторного пространства и базового алгоритма для вычисления косинусной меры сходства. В данной главе мы начинаем с эвристических приемов, позволяющих ускорить эти вычисления. Многие из этих приемов повышают скорость поиска за счет риска не найти лучшие К документов, соответствующих запросу. Некоторые эвристические методы обобщают метод ранжирования с использованием косинусной меры сходства. Мы делаем шаг назад от вычисления косинусной меры сходства к решению более общей задачи ранжирования в поисковых системах. Индексы и структуры для поддержки ранжирования не только на основе косинусной меры сходства, но и с помощью более общих факторов ранжирования, например близости терминов запроса. Как все это работает в комплексе. Взаимодействия модели векторного пространства для свободных текстовых запросов с поддержкой популярных операторов языка запросов.

Эффективное ранжирование

Для любого документа d косинусная мера сходства (v(q),v(d)) представляет собой взвешенную сумму по всем терминам запроса q, встречающимся в документе d. Ее можно вычислить, определив пересечение словопозиций (postings) точно так же, как в алгоритме, где строку 7 следует заменить, поскольку в этом случае вес wtq полагается равным единице, так что операции умножения и сложения превращаются просто в операцию сложения. Результат этой модификации. Необходимо пройти по словопозициям терминов запроса q в инвертированном индексе и накопить итоговую релевантность для каждого документа — так же, как и при обработке булева запроса, за исключением того, что каждому документу, появляющемуся в любой из просматриваемых записей, теперь приписывается положительная величина - значение релевантности. Как указывалось ранее, для каждого словарного термина мы храним его обратную документную частоту idf, а для каждой (например, некоординатной) словопозиции — частоту термина tf. Эта схема позволяет ранжировать каждый документ, встречающийся в словопозициях любого из терминов запроса; общее количество таких документов может быть значительно меньше N.

Вычислив релевантность, мы должны сделать последний шаг до того, как выдать пользователю список результатов, - определить К документов с наибольшей релевантностью. Несмотря на то что можно было бы отсортировать по релевантности все документы, лучше все же использовать частичную пирамидальную сортировку и извлечь только К лучших документов. Пусть J — количество документов с ненулевыми косинусными мерами сходства. Тогда для создания самой пирамиды (кучи) потребуется 2J сравнений, а для извлечения из кучи каждого из К документов с наибольшей релевантностью достаточно еше log J сравнений.

tel-icq