Схемы взвешивания документов и запросов

Схемы взвешивания документов и запросов Формула (6.12) носит фундаментальный характер для информационно-поисковых систем, использующих ту или иную форму взвешивания в векторном пространстве. Методы ранжирования в векторном пространстве отличаются друг от друга конкретным выбором весов в векторах V(d) и V(q). На рисунке перечислены основные схемы взвешивания для векторов V(d) и V(q)ya также мнемонические обозначения разных комбинаций весов; эта система мнемонических обозначений иногда называется SMART в честь одной из первых текстовых систем информационного поиска. Мнемонические обозначения, обо значающие комбинации весов, имеют вид ddd.qqq, где первый триплет соответствует системе взвешивания терминов в векторе документа, а второй — в векторе запроса. Первая буква каждого триплета обозначает компонент, соответствующий частоте термина, вторая — документную частоту, а третья — вид нормировки. Довольно часто векторы V(d) и V(q) нормируются по-разному. Например, весьма распространенной является схема взвешивания Inc.ltc, где для составления вектора документа используется log-взвешенная частота термина, не применяется обратная документная частота термина (по соображениям эф-фективности поиска и производительности системы) и выполняется косинусная нормировка, в то время как для создания вектора запроса используются log-взвешенная частота термина, обратная документная частота термина и косинусная нормировка.

Опорная нормировка длины документов

Мы нормировали каждый вектор с помощью его евклидовой нормы, так что все векторы документов имели единичную длину. Тем самым мы исключили всю информацию о длине исходного документа, что может оказаться довольно важным при обработке длинных документов. Во-первых, длинные документы имеют более высокие значения tf, поскольку они содержат больше терминов. Во-вторых, длинные документы содержат больше разных терминов. Эти факторы могут способствовать завышению ре- тевантности более длинных документов, что (по крайней мере для некоторых информационных потребностей) является неестественным. Длинные документы можно разделить на две категории: 1) многословные (verbose) документы, в которых содержание часто повторяется; в таких документах длина не влияет на относительные веса разных терминов; 2) документы, посвященные нескольким разным темам, в которых искомые термины, вероятно, соответствуют небольшим фрагментам документа, но не соответствуют всему документу: в этом случае относительные веса терминов существенно отличаются от весов для отдельных коротких документов, которые соответствуют терминам запроса. Для компенсации этого эффекта используется нормировка длины документа, не зависящая ни от частоты термина, ни от документной частоты. Для этого вводится нормировка векторов документов из коллекции, при которой длина “нормированных” векторов не обязательно равна единице. Тогда при вычислении скалярного произведения между (единич-ным) вектором запроса и нормированным документом релевантность должен “корректироваться”, чтобы учесть влияние длины документа. Этот вид компенсации длины документа называется опорной нормировкой длины документа (pivoted document length normalization)

Рассмотрим коллекцию документов вместе с набором запросов к этой коллекции. Допустим, что для каждого запроса q и каждого документа d известна бинарная оценка о том, релевантен документ d запросу q или нет. В главе 8 мы обсудим способы получения таких оценок релевантности для набора запросов и коллекции документов. Имея такое множество оценок релевантности, можно вычислить вероятность релевантности (probability of relevance) как функцию, зависящую от длины документа и усредненную по всем запросам в наборе запросов. Итоговый график может выглядеть так, как жирная кривая. Для вычисления этой кривой мы отсортировали документы по длине и разбили их на квантили, равные по числу документов в каждой, вычислили долю релевантных документов в каждом квантиле, а затем построили график зависимости этой доли от медианы длин документов в квантиле. (Таким образом, даже если кривая кажется непрерывной, на самом деле она представляет собой гистограмму длин документов.)

tel-icq