Стандартный подход

Стандартный подход Стандартный подход к оценке информационно-поисковых систем опирается на понятие релевантных и нерелевантных документов. В соответствии с информационными потребностями пользователей документ из тестовой коллекции проходит бинарную классификацию: релевантный или нерелевантный. Это решение называется эталонной (gold standard or ground truth) оценкой релевантности. Коллекция тестовых документов и набор информационных потребностей должны иметь

достаточный объем: оценку следует усреднять по действительно большой совокупности тестов, поскольку результаты поиска сильно отличаются для разных документов и информационных потребностей. В качестве первого очень грубого приближения достаточным минимумом считается набор из 50 информационных потребностей.

Релевантность оценивается по отношению к информационной потребности, а не по запросу. Например, информационная потребность может быть сформулирована так.

Правда ли, что красное вино более эффективно снижает риск сердечных приступов, чем белое?

Этот вопрос можно преобразовать в запрос

Документ является релевантным, если он соответствует заданной информационной потребности, а не просто если он содержит все слова из запроса. На практике эту тонкость часто не понимают, поскольку информационная потребность неочевидна. Тем не менее она существует. Если пользователь задает запрос python поисковой веб-системе, то, возможно, его интересует, где можно купить ручного питона. А может быть, ему нужна информация о языке программирования Python. По однословному запросу системе трудно понять, в чем заключается информационная потребность. Тем не менее пользователю она известна и он может оценивать полученные результаты на основе их релевантности своей информационной потребности. Для того чтобы оценить систему, необходимо явно сформулировать информационную потребность, относительно которой мы будем судить о релевантности или нерелевантное™ найденных документов. Для простоты можно допустить, что релевантность можно оценить по шкале, т.е. одни документы являются сильно релевантными, а другие — слабо. Однако пока мы будем использовать лишь бинарное решение о релевантности. Причины этого выбора и его альтернативы мы обсудим дальше.

Многие системы содержат разные веса (часто называемые параметрами), с помощью которых можно настроить их производительность. При оценке таких систем не следует учитывать результаты поиска по тестовой коллекции, полученные путем подбора параметров, обеспечивающих максимум производительности для данной коллекции. Это объясняется тем, что такая настройка завышает ожидаемую производительность системы, поскольку веса специально настраиваются так, чтобы обеспечить максимальную производительность на конкретном множестве запросов, а не на случайной их выборке.

В таких случаях правильно было бы сформировать одну или несколько рабочих тестовых коллекций документов (development test collection) и подбирать параметры для них. После этого система с настроенными параметрами проходит испытание на тестовой коллекции. Результаты, полученные при таком тестировании, можно рассматривать как несмещенную оценку производительности системы

 

Очевидная альтернатива, которую могут лепсо найти читатели, — оценивать инфор- мационно-поисковые системы по их правильности (accuracy), т.е. по доле правильных ответов. В терминах таблицы сопряженности признаков правильность определяется так: Правильность ~ (tp + tn)/(tp +fp +fii + th). Это кажется разумным, поскольку существуют два действительных класса документов — релевантные и нерелевантные, а информационно-поисковую систему можно интерпретировать как соответствующий бинарный классификатор (возвращающий документы, которые счел релевантными). Именно этот показатель качества часто используется для оценки задач классификации с помощью машинного обучения

Однако существует важная причина, по которой правильность не подходит для оценки информационного поиска. Практически во всех сшуапиях данные крайне несимметричны; как правило, более 99,9% документов являются нерелевантными. Система, настроенная на достижение максимальной правильности, может просто считать все документы нерелевантными всем запросам. Даже если такая система является приемлемой, попытка пометить некоторые документы как релевантные почти всегда приводит к повышению уровня ложно положительных. Однако пометка всех документов нерелевантными совершенно не соответствует потребностям пользователей информационно-поисковых систем. Пользователи всегда хотят видеть какие-то документы и вполне вероятно, что они смирятся с определенной долей ложно положительных, если наряду с ними они получат также некую полезную информацию. Точность и полнота концентрируют оценку систем на возвращаемых ими истинно положительных, как бы спрашивая, какая доля релевантных документов найдена и сколько возвращено ложно положительных.

tel-icq