Оценка информационного поиска

Оценка информационного поиска В предыдущих статьях описано много альтернативных вариантов проектирования систем информационного поиска. Как определить, какой из указанных методов наиболее эффективен в соответствующих приложениях? Следует ли использовать списки стоп-слов? Нужно ли проводить стемминг? Стоит ли применять взвешивание с помощью показателя idf? Информационный поиск представляет собой преимущественно эмпирическую дисциплину, требующую тщательной и осторожной оценки эффективности новых методов на репрезентативных коллекциях документов.

Настоящая статья начинается с обсуждения способов оценки систем информационного поиска и тестовых коллекций, которые наиболее часто используются для этой цели. Затем мы введем понятие релевантного и нерелевантного документов и опишем формальный метод оценки неранжнрованных результатов поиска. Мы опишем стандартные метрики, которые используются для оценки задач информационного поиска и родственных задач, например, - классификации текстов, и объясним, почему эти метрики полезны. Далее мы распространим наши подходы на оценку ранжированных результатов поиска и выработаем для них новые метрики. Кроме того, мы обсудим вопросы, связанные с формированием надежных и информативных тестовых коллекций.

После этого будут рассмотрены вопросы, связанные с полезностью поиска, а также описано, как это понятие можно заменить релевантностью документа. Основным показателем полезности поиска является удовлетворение пользователя, которое, в свою очередь, зависит в том числе и от скорости ответа и размера индекса. При этом вполне естественно предположить, что релевантность результатов является самым важным фактором: быстрые и бесполезные ответы не принесут пользователям удовольствия. Однако мнение пользователей не всегда совпадает с представлениями разработчиков о качестве системы. Например, степень удовлетворения пользователя обычно очень сильно зависит от интерфейса, включая верстку страницы, ясность представления результатов и скорость отклика, хотя эти понятия не связаны с качеством возвращаемых результатов. Мы затронем и другие показатели качества системы, в частности генерацию высококачественных сниппетов, сопровождающих список результатов, которые сильно влияют на удовлетворенность пользователей, но не измеряются в рамках парадигмы ранжирования документов по их релевантности.

tel-icq