Преимущества и недостатки концепции релевантности

Преимущества и недостатки концепции релевантности Преимущество оценки системы на основе стандартной модели релевантных и нерелевантных документов заключается в том, что мы имеем фиксированные условия, так что мы можем проводить сравнительные эксперименты с участием разных систем или модификаций одной системы. Такое формальное тестирование намного дешевле и позволяет более точно выявить влияние параметров системы на ее качество чем на основе экспериментов с участием пользователей. Действительно, опираясь на формальный показатель, которому мы доверяем, мы можем оптимизировать качество системы с помощью методов машинного обучения, а не настраивать параметры вручную. Разумеется, если формальный показатель плохо описывает потребности пользователя, то такой подход никак не поможет повысить удовлетворенность пользователя. По нашему мнению, стандартные формальные показатели качества информационно-поисковых систем, несмотря на упрощения, достаточно хороши, и недавние работы, посвященные оптимизации формальных оценок, блестяще это подтвердили. Существует множество методик, разработанных на основе формальных оценок, которые повысили качество реальных систем, например методы нормировки длины документов в рамках проекта TREC и методы машинного обучения для настройки весов параметров при ранжировании.

Это не значит, что с этими абстракциями нет никаких проблем. Например, считается, что релевантность одного документа в коллекции не зависит от релевантности другого. (На этом предположении на самом деле построено большинство информационно-поисковых систем и методов оценки их качества — документы оцениваются относительно запросов, а не относительно друг друга.) Выводы носят бинарный характер: никаких нюансов при оценке релевантности нет. Оценка релевантности документа по отношению к информационной потребности считается абсолютной и объективной. В то же время оценки релевантности документов являются субъективными, причем разные люди высказывают разные суждения. На практике эксперты также делают ошибки и проявляют невнимательность. Кроме того, при оценке информационно-поисковых систем часто полагают, что информационные потребности не изменяются во время просмотра результатов поиска. Результаты, основанные на одной коллекции, сильно зависят от самой коллекции, а также от запросов и набора оценок релевантности. При этом иногда невозможно перенести результаты оценки на другую предметную область или группу пользователей.

В недавних экспериментах по оценке качества систем, включая проекты INEX, некоторые дорожки TREC и NTCIR, применялась шкала оценок релевантности, при этом документы разделялись на три или четыре класса:от слабо релевантных до сильно релевантных. Детальное обсуждение организации оценки качества в рамках проекта INEX.

С методами оценки поиска на основе релевантности документов, описанными выше, связана одна очевидная проблема: разница между релевантностью и маргинальной релевантностью (marginal relevance), т.е. сохраняет ли документ хоть какую-то полезность, после того как пользователь просмотрел другие документы (Carbonell and Goldstein, 1998). Даже если документ имеет высокую релевантность, его информация может оказаться излишней и вторичной, если она уже содержится в ранее найденных документах. Наиболее выраженный вариант это явления — документы-дубликаты, часто встречающиеся в вебе, или случай, когда несколько документов описывают одно событие. В этих условиях маргинальная релевантность лучше оценивает полезность документа для пользователя. Максимизация маргинальной релевантности требует, чтобы найденные документы были разнообразными и новыми. Для того чтобы оценить ее, в качестве единиц оценки можно использовать отдельные факты или сущности. Вероятно, маргинальная релевантность является более точной оценкой полезности системы с точки зрения пользователя, но для такой оценки сложнее создать тестовую коллекцию.

tel-icq