Релевантность

Релевантность С другой стороны, тонкая кривая показывает, что может случиться с теми же документами и набором запросов, если для ранжирования использовать косинусную нормировку по формуле. Как видим, косинусная нормировка искажает вычисленную релевантность по отношению к истинной релевантности за счет длинных документов. Тонкая и жирная линии пересекаются в точке р, соответствующей длине документа 1Р, которую мы будем называть опорной длиной (pivot length); эта точка отмечена пунктирными перпендикулярами, опущенными на оси х и у. Идея опорной нормировки длины документа состоит в том, чтобы так “повернуть” кривую, соответствующую косинусной нормировке, против часовой стрелки вокруг точки р, чтобы она как можно больше совпала с жирной линией, соответствующей зависимости релевантности документа от длины документа. Как указывалось в начале раздела, это можно сделать, включив для каждого вектора документа V(d) в равенстве коэффициент нормировки, не являющийся евклидовой нормой вектора. Он выбирается большим евклидовой нормы для документов, длина которых меньше 1Р, и меньшим для более длинных документов.

Библиография и рекомендации для дальнейшего чтения

Более углубленно рассматриваются вычислительные аспекты ранжирования в векторном пространстве. В работах Луна (Luhn, 1957, 1958) сообщается о первых приложениях взвешивания терминов. В них подчеркнута важность терминов со средней частотой (термины, которые встречаются ни редко, ни часто), их можно рассматривать как предтечу схемы схемы tf—idf и аналогичных подходов. Спарк Джоунс (Sparck Jones, 1972) на основе этих интуитивных предположений провела эксперименты, продемонстрировавшие использование обратной документной частоты в схеме взвешивания терминов. Развитие и теоретическое обоснование схемы idf было продолжено в работах Со- лтона и Бакли (Salton and Buckley, 1987), Робертсона и Джоуса (Robertson and Jones, 1976), Крофта и Харпера (Croft and Haiper, 1979) и Папинени (Papineni, 2001). Робертсон поддерживает веб-страницу (www.soi.city.ac.uk/~ser/idf.html), посвященную истории схемы idf, включая электронные копии ранних публикаций, которые предшествовали электронным версиям журнальных статей. Метод опорной нормировки длины документа разработали Сингал и др. (Singhal et al., 1996а). В главе 11 описаны вероятностные языковые модели, на основе которых разрабатываются более тонкие схемы взвешивания, чем схема tf—idf .

Как мы выяснили, в результате назначения веса каждому термину в документе последний можно интерпретировать как вектор весов всех терминов коллекции. Информационнопоисковая система SMART в университете Корнелла (Salton, 19716) была разработана Со- лтоном и его коллегами и, вероятно, впервые использовала представление документа как вектора весов. Схема для вычисления косинусных мер сходства — заслуга Цобеля и Моффата (Zobel and Moffat, 2006). Две стратегии ранжирования, “термин за термином” и “документ за документом”, обсуждаются в работе Тертла и Флуда (Turtle and Flood, 1995).

Система обозначений SMART в схеме взвешивания терминов tf-idf, была предложена в работах Солтона и Бакли, а также Сингала и др. (Salton and Buckley, 1988; Singhal et al., 1995, 19966). He все варианты обозначений являются согласованными; мы старались придерживаться системы, предложенной Сингалом и др. (Singhal et al., 19966). Более подробная и исчерпывающая система обозначений была разработана Моффатом и Цобелем (Moffat and Zobel, 1998), предложившими более широкую палитру схем взвешивания на основе частот и документных частот терминов. Помимо системы обозначений, Моффат и Цобеяь (Moffat and Zobel, 1998) стремились определить пространство весовых функций, позволяющее построить эффективные схемы взвешивания путем поиска экстремума. Однако они сообщили, что эти методы поиска экстремума не позволяют определить наилучшие схемы взвешивания.

tel-icq