Вероятностная обратная связь по релевантности

Вероятностная обратная связь по релевантности Кроме изменения веса термина запроса в векторном пространстве, существуют другие способы организации обратной связи по релевантности. Например, если пользователь указал несколько релевантных и нерелевантных документов, то можно построить классификатор. В частности, основой классификатора может стать наивная байесовская вероятностная модель. Пусть R — булева индикаторная переменная, отражающая релевантность документа. Тогда мы можем оценить величину Р(х, = 1), т.е. вероятность того, что термин t встретится в документе, в зависимости от того, релевантный это документ или нет.

Здесь N— общее количество документов, df,— количество документов, содержащих термин t, VR — множество известных релевантных документов и VR, — подмножество документов из VR, содержащих термин t. Хотя множество известных релевантных документов, скорее всего, является небольшим подмножеством множества всех релевантных документов, если предположить, что само множество релевантных документов представляет собой небольшое подмножество всех документов, то приведенные выше оценки вполне разумны. На основе этих оценок можно предложить новый способ изменения весов терминов запроса. Более подробно вероятностные подходы будут исследованы позже. В частности, применение этого подхода к обратной связи по релевантности будет изложено далее. Пока заметим, что равенств (9.4) еще недостаточно для изменения весов терминов. Эти равенства используют статистику по коллекции и информацию о распределении термина в документах, считающихся релевантными, но не информацию о конкретном запросе.

Успех метода RF зависит от определенных предположений. Во-первых, пользователь должен иметь достаточно знаний, чтобы сформулировать исходный запрос, хоть в какой- то мере близкий к искомым документам. Это условие является необходимым в любой информационно-поисковой системе, но следует отметить несколько проблем, которые метод RF сам по себе устранить не может.

Во-вторых, метод обратной связи по релевантности требует, чтобы релевантные документы были похожи друг на друга, i.e. образовывали кластеры. В идеальном случае распределение термина по всем релевантным документам должно быть похожим на распределение термина во всех документах, отмеченных пользователем, а распределение термина по всем нерелевантным документам должно отличаться от распределения термина в релевантных документах. Метод работает хорошо, если все релевантные документы образуют кластер вокруг отдельного прототипа или существуют разные прототипы, словари релевантных документов сильно перекрываются и схожесть между релевантными и нерелевантными документами мала. Модель Роккио неявно интерпретирует релевантные документы как отдельный кластер, который моделируется с помощью центроида. Этот подход не работает, если релевантные документы образуют мультимодальный класс, т.е. состоят из нескольких кластеров в векторном пространстве. Это может произойти в следующих ситуациях.

Подмножества документов используют разные словари, например Burma или Myanmar

Запрос, множество ответов на который разнородно (дизъюнктивно) по своей природе, например Pop stars who once worked at Burger King

Общие понятия, которые часто распадаются на дизъюнкцию нескольких более конкретных понятий, например felines

Качественно подготовленное содержание документов коллекции часто может помочь в решении этой проблемы. Например, статья об отношении различных групп к ситуации в Бирме может содержать терминологию, которую используют разные стороны: в результате возникают связи между кластерами документов.

Обратная связь по релевантности не всегда нравится пользователям. Они часто отказываются от явной обратной связи или вообще не желают продолжать. Более того, часто по результатам поиска на основе обратной связи трудно понять, почему был найден конкретный документ.

Кроме того, обратная связь по релевантности порождает несколько практических проблем. Длинные запросы, генерируемые в результате применения метода RF, в обычых информационно-поисковых системах оказываются неэффективными Это приводит к большим вычислительным затратам и увеличивает время отклика на запрос пользователя. Частичное решение этой проблемы можно получить, изменив веса самых важных терминов в релевантном документе, например первых двадцати наиболее часто встречающихся терминов. Согласно некоторым экспериментальным результатам использование ограниченного количества терминов может дать более хорошие результаты (Harman, 1992), хотя в другой публикации авторы утверждают, что использование большего количества терминов повышает качество найденных документов (Buckey et al., 1994b)

tel-icq