Библиография и рекомендации для дальнейшего чтения

Библиография и рекомендации для дальнейшего чтения Первое определение и использование понятия релевантности запросу относятся к 1953 году. Свансон (Swanson, 1988) сообщает, что при проведении оценки в этом году два коллектива согласились, что 1 390 документов являются в разной степени релевантными по отношению к 98 вопросам, но разошлись во мнениях относительно остальных

Впервые строгое формальное тестирование информационно-поисковых систем было проведено в ходе экспериментов в университете Кранфидда (Cranfield), начавшихся в конце 1950-х годов. Ретроспективный обзор тестовой коллекции Кранфилда и описание экспериментов можно найти в работе Клевердона (Cleverdon, 1991). Другая серия пионерских экспериментов в области информационного поиска была проведена Джерардом Солтоном (Gerard Salton) и его коллегами (Salton, 1971, б, 1991) на системе SMART. Эксперименты TREC подробно описаны Ворхес и Харман (Voorhees and Harman, 2005). Эта информация доступна на сайте http://trec.nist.gov/. Сначала немногие исследователи оценивали статистическую значимость своих экспериментальных результатов, но сообщество специалистов по информационному поиску все настоятельнее требовало расширения этих исследований (Hull, 1993). Исследования качества информационно-поисковых систем с участием пользователей начались позднее (Saracevic and Kantor, 1988,1996)

Понятия точности и полноты впервые были использованы Кентом и др. (Kent et al., 1955), хотя термин точность (precision) был введен немного позднее. F-мера (или, точнее, ее дополнение Е = 1 —F) была предложена Рийсбергсном (Rijsbergen, 1979). Он провел широкое теоретическое исследование, в рамках которого с помощью принципа уменьшающейся маргинальной релевантности (в какой-то момент пользователь не склонен жертвовать точностью для достижения полноты) доказал, что гармоническое среднее является приемлемым способом сочетания точности и полноты (в противоположность минимуму или геометрическому среднему).

Бакли и Ворхес (Buckley and Voorhees, 2000) сравнили несколько показателей качества поиска, включая точности на уровне к, МАР и R-точность, а также оценили погрешность каждого показателя. R-точность была принята в качестве официальной оценки в дорожке TREC HARD (Allan, 2005). Аслам и Йилмаз (Aslam and Yilmaz, 2005) исследовали ее удивительно высокую корреляцию с показателем МАР, отмеченную в более ранних исследованиях (Tague-Sutcliffe and Blustein, 1995; Buckley and Voorhees, 2000). Стандартной программой для оценки информационно-поисковых систем, вычисляющей многие показатели качества ранжированного поиска, является программа trec_eval, написанная Крисом Бакли (Chris Buckley) и использованная в проекте TREC. Ее можно загрузить с сайта http://trec.nist.gov/trec_eval/.

Кекалайнен и Ярвелин (Kekalainen and Jarvelin, 2002) приводят доводы о преимуществе градуированных оценок релевантности при работе с очень большими коллекциями. В их работе (Jarvelin and Kekalainen, 2002) предложены методы оценки информационнопоисковых систем, основанные на совокупной выгоде. Сакаи (Sakai, 2007) провел исследование устойчивости и чувствительности метрик, основанных на градуированных оценках релевантности в рамках проекта NTCIR, и пришел к выводу, что наилучшим показателем для ранжирования документов является показатель NDCG.

Шамбер и др. (Schamber et al., 1990) изучили концепцию релевантности с учетом ее многомерной и контекстно-зависимой природы и при этом пришли к выводу, что ее можно эффективно оценить. Статья Ворхес (Voorhees, 2000) стала классической работой на тему неустойчивости оценок релевантности, а также ее влияния на оценку и ранжирование систем в рамках проекта TREC Ad Нос. Ворхес пришла к выводу, что, несмотря на изменения абсолютных значений, ранжирование остается довольно устойчивым. Херш и др. (Hersh et al., 1994) провели аналогичный анализ на примере коллекций медицинских документов. В противоположность этим работам Кекалайнен (Kekalainen, 2005) проанализировал результаты более поздних экспериментов TREC, используя четырехуровневые оценки релевантности и понятие совокупной выгоды и сделал вывод, что используемые показатели существенно влияют на ранжирование систем (см. также работу Хартера (Harter, 1998)). Цобель (Zobel, 1998) исследовал вопрос, является ли метод общего котла, используемый в проекте TREC для создания подмножества документов, подлежащих оценке, надежным и корректным, и пришел к положительному выводу.

Каппа-статистика и ее применение в языковых приложениях обсуждалась в работе Карлетта (Carletta, 1996). Классические работы (Siegel and Castellan, 1988) содержат объединенные вычисления ожидаемого согласия, но Ди Эугенио и Гласс (Di Eugenio and Glass, 2004) отдают предпочтение раздельному согласованию (хотя и со многими показателями!. Более подробную информацию об альтернативных оценках согласия, которые могут быть даже лучше, можно найти в работах Ломбарда и др. (Lombard et al., 2002) и Криппендорфа (Krippendorff, 2003).

Реферирование текста активно исследуется многие годы. Современные работы по выбору предложений были инициированы Купиецем и др. (Kupiec et al, 1995). Среди более поздних работ отметим статьи Бразилай и Эльхадада (Barzilay and Elhadad, 1997) и Джинга (Jing, 2000). Кроме того, широкий спектр работ на эту тему публикуется в трудах ежегодной конференции (Document Understanding Conference — DUC) и на других научных конференциях, посвященных обработке естественного языка. Преимущество динамических аннотаций в контексте информационно-поисковых систем продемонстрировано в работе Томброза и Сандерсона (Tombros and Sanderson, 1998). Эффективные методы генерации сниппетов обсуждается в работе Терпина и др. (Turpin et al., 2007).

Анализ кликов (clickthrough log analysis) изучен в работах Йоахимса и др. (Joachims, 2002&; Joachims et al., 2005).В серии статей Херша, Терпина и их коллег показано, что улучшение формального качества поиска, полученное в групповых экспериментах, не всегда приводит к улучшению системы с точки зрения пользователя (Hersh et al., 2000о, 20006, 2001; Turpin and Hersh, 2001, 2002)

Пользовательские интерфейсы и значение человеческого фактора для информационно-поисковых систем, а также модели поиска информации и тестирование удобства использования (usability testing). Подробную информацию на эту тему читатели найдут в других учебниках (Baeza-Yates and Ribeiro-Neto, 1999; Kor- fhage, 1997) и коллекциях, посвященных когнитивным аспектам (Spink and Cole, 2005).

tel-icq