Оценки системы поиска

Оценки системы поиска Иногда для оценки системы поиска используется кривая соотношений правильного я южного обнаружения, или кривая ROC (receiver operating characteristics). Кривая ROC представляет собой зависимость доли истинно положительных или чувствительности от доли ложно положительных результатов, равной (1 - специфичность). Чувствительность (sensitivity) — это просто синоним полноты. Доля ложноположительных результатов вычисляется по формуле fpl(fp + tn). Кривая ROC, соответствующая кривой “точность-полнота”. Кривая ROC всегда следует из левого нижнего угла в правый верхний угол. Для хорошей системы график в левом нижнем углу резко поднимается вверх. Для неупорядоченных множеств результатов специфичность (specificity), вычисляемая по формуле tnl{fp + tn), считается не слишком полезным понятием. Поскольку множество истинно отрицательных всегда велико, уровень специфичности для всех информационных потребностей всегда будет близким к единице (и соответственно, доля ложно положительных всегда почти равна нулю). Иначе говоря, “интересной” является интервал полноты от нуля до 0,4, расположенный на рис. 8.4 слева внизу. Однако кривая ROC может оказаться информативной при анализе полного спектра поиска, позволяя иначе взглянуть на данные. Во многих областях в качестве агрегированного показателя используется площадь фигуры, ограниченной кривой ROC. Этим кривая ROC похожа на показатель МАР. Кривые “точность-полнота” иногда ошибочно называют кривыми ROC. Эго объяснимо, но неправильно.

Оценка релевантности

Для правильной оценки системы тестовые информационные потребности должны соответствовать документам, хранящимся в тестовой коллекции, и будущему использованию системы. Лучше всего, чтобы эти информационные потребности разрабатывались экспертами в предметной области. Использовать в качестве информационных потребностей случайные сочетания терминов запросов нецелесообразно, поскольку обычно они не отражают их реальное распределение.

Кроме информационных потребностей и документов, необходимо собрать оценки релевантности. Этот процесс требует времени и денег, поскольку связан с участием людей. Для маленьких коллекций наподобие коллекции Cranfield были получены оценки релевантности для каждой пары “запрос-документ” из коллекции. При использовании больших современных коллекций обычно оценивается релевантность лишь части документов для каждого запроса. Чаще всего для этого используется метод общего котла (pooling), при котором релевантность оценивается для подмножества коллекции, которое состоит из к первых документов, возвращенных несколькими информационно-поисковыми системами (как правило, системами, подлежащими оценке) и, возможно, полученных из других источников, например из результатов булева поиска по ключевым словам или документов, найденных экспертами в ходе интерактивного процесса.

Человек — это не робот, невозмутимо возвращающий стандартные выводы о релевантности документа по отношению к запросу. Его суждения о релевантности носят субъективный и переменчивый характер. Однако это не проблема: в окончательном итоге успех информационно-поисковой системы зависит от того, как она удовлетворяет информационные потребности именно этих субъективных пользователей.Тем не менее интересно изучить и оценить согласованность экспертов при оценке релевантности документов. В социальных науках наиболее распространенным показателем согласованности оценок является каппа-статистика (kappa statistics). Она разработана для категориальных оценок и делает поправку на случайное совпадение оценок.

Здесь Р(А) — доля совпавших оценок экспертов, Р(Е) — ожидаемая доля случайно совпавших оценок. Параметр Р(Е) можно оценить по-разному. Если выводы касаются лишь двух классов, то ожидаемый уровень случайных совпадений равен 0,5. Однако обычно распределение классов является асимметричным, поэтому для вычисления ожидаемого уровня согласованности обычно используется маргинальная статистика (marginal statistics). Есть две возможности оценить величину Р(Е) в зависимости о того, используется ли объединенное маргинальное распределение по экспертам или маргинальные статистики для каждого эксперта отдельно. На практике применяются оба метода, но мы остановимся на объединенном маргинальном распределении, поскольку при систематических расхождениях между экспертами оно позволяет получить более консервативные оценки. Вычисления продемонстрированы в таблице. Если два эксперта всегда соглашаются друг с другом, то статистика каппа равна единице; если их мнения совпадают случайно, то каппа-статистика равна нулю; и она отрицательна, если расхождения больше, чем может объяснить случайность. Если экспертов больше двух, то можно вычис-лить среднее попарных значений каппа-статастики. На практике считается, что значение каппа, превышающее 0,8, означает хорошее согласование, между 0,67 и 0,8 — удовлетворительное, а меньше 0,67 — сомнительное основание для оценки.

Согласованность выводов относительно релевантности документов измерялась в проектах TREC и для медицинских информационно-поисковых коллекций. Как правило, каппа-статистика лежала в удовлетворительном диапазоне (от 0,67 до 0,8). Тот факт, что бинарные выводы экспертов о релевантности документов довольно слабо согласованы друг с другом, является одной из причин, по которым при оценке не используется более подробная шкала. Для ответа на вопрос, являются ли результаты оценки информацион- но-поисковых систем корректными несмотря на колебания оценок отдельных экспертов, проводились эксперименты, в которых за эталон принимались оценки одного эксперта. В этом случае абсолютные оценки качества могут существенно измениться, но относительное ранжирование разных систем или вариантов одной и той же системы в целом сохраняется.

tel-icq