Оценка ранжированных результатов поиска

Оценка ранжированных результатов поиска Точность, полнота и F-мера— это показатели, вычисляемые по неупорядоченным совокупностям документов. Чтобы оценить стандартные для современных поисковых систем ранжированные результаты, необходимо расширить эти метрики (или определить новые). В этой ситуации в качестве подходящих множеств найденных документов естественно выбирать первые к документов. Для каждого такого множества точность и полноту можно изобразить в виде кривой “точностъ-потота”. Кривые “точность- полнота” имеют пилообразный вид: если (Ј+1)-й найденный документ оказывается нерелевантным, то полнота остается такой же, как и для первых к документов, но точность снижается. Если же этот документ оказывается релевантным, то как точность, так и полнота увеличиваются, а кривая делает скачок вверх и вправо. Во многих случаях полезно удалить эти зубцы и использовать интерпо трованную точность pmterp (interpolated precision), которая при определенном уровне полноты г представляет собой наибольшую точность для всех значений полноты г' > г.

Точность-полнота

Это объясняется тем, что почти все пользователи согласны просматривать на несколько документов больше, если это увеличит точность поиска. На рис. 8.2 интерполированная точность выделена тонкой линией. Согласно этому определению интерполированная точность при нулевой полноте является полностью определенной.

Изучение кривой “точность-полнота” является весьма информативным, однако довольно часто желательно представить всю эту информацию с помощью нескольких и даже одного значения. Традиционно для этого используется средняя точность, интерполированная по одиннадцати точкам (eleven-point interpolated average precision). Именно этот показатель был использован, например, в первых восьми экспериментах TREC Ad Нос. Для каждой информационной потребности интерполированная точность измеряется на 11 уровнях полноты: 0,0; 0,1; 0,2; 1,0. Для кривой “точность-полнота”, эти 11 точек приведены в таблице. Для каждого уровня полноты вычисляется среднее арифметическое значение интерполированной точности, обеспечивающее заданную полноту поиска по коллекции для каждой информационной потребности. После этого можно построить общий 11-точечный график “точность- полнота”.  В последние годы все большее распространение получают другие меры точности. Чаще всего в среде исследователей, участвующих в проекте TREC, используется (макро)усредненная средняя точность (Mean Average Precision — МАР) позволяющая оценить качество системы при разных уровнях полноты одним чистом. Показано, что среди других показателей качества МАР обладает особенно хорошими дискриминирующими свойствами и устойчивостью. Рассмотрим множество документов, выданных системой вплоть до позиции очередного релевантного документа, и вычислим для >того множества значение точности. Усреднив значения точности всех таких множеств, мы получим среднюю точность (average precision) одного запроса (информационной потребности). Далее, для вычисления МАР (макроусредненной средней точности), среднюю точность (average precision) усредняют по всем запросам (информационным потребностям). Иначе говоря, если множество релевантных документов для информационной потребности q^Q имеет вид [d,,d,,...Д„} и Rjk— множество упорядоченных результатов поиска из первых по порядку документов вплоть до документа d

tel-icq