Вероятностная модель информационного поиска

Вероятностная модель информационного поиска Обсуждая обратную связь по релевантности в разделе 9.1.2, мы заметили, что, зная несколько релевантных и нерелевантных документов, можно непосредственно оценить вероятность того, что термин t появится в релевантном документе P(f|/?=1), и это может стать основой для создания классификатора, решающего, является ли документ релевантным. В этой главе вероятностный подход к информационному поиску разрабатывается более глубоко. Это позволяет создать другую формальную основу для модели поиска, что приводит к альтернативным методам определения весов терминов.

Сначала у пользователей есть информационные потребности, которые они затем переводят в форму запросов. Аналогично существуют документы, которые преобразовываются в представления документов (которые отличаются уже тем, как текст разбивается на лексемы, и, возможно, содержат намного меньше информации, как. например, при использовании некоординатного индекса). Основываясь на этих двух представлениях (запроса и документа), система пытается определить, насколько хорошо документы удовлетворяют информационным потребностям. В моделях булева поиска и векторного пространства сопоставление осуществляется в рамках формально определенного, но семантически неточного исчисления индексных терминов. Имея только запрос, система информационного поиска неточно понимает информационную потребность пользователя. Зная представления запроса и документов, система может лишь угадывать, является ли содержание документа релевантным данной информационной потребности. Для того чтобы принимать решения в условиях неопределенности, необходим математический аппарат теории вероятностей. В настоящей главе показано, как использовать эту теорию для оценки вероятности, что документ является релевантным по отношению к информационной потребности.

Существует несколько возможных вероятностных моделей поиска. В этой главе излагаются основы теории вероятностей и принцип вероятностного ранжирования, а также оригинальная бинарная модель независимости, являющаяся наиболее известной вероятностной моделью поиска. В заключение мы опишем усовершенствованные методы, использующие частоты терминов, включая схему взвешивания Okapi ВМ25, на практике доказавшую свою эффективность, и сетевые байесовские модели для информационного поиска. В главе  будет описан альтернативный вероятностный подход к информационному поиску, основанный на языковых моделях, который в последние годы разрабатывается с большим успехом.

Надеемся, что читатель уже знаком с основами теории вероятностей, поэтому приведем краткий обзор основных положений; в конце главы указаны библиографические ссылки на источники по теории вероятностей для более глубокого изучения. Буква “Л” обозначает событие (подмножество из пространства возможных исходов). Это подмножество можно также представить с помощью случайной величины (random variable) — функции, которая исходам ставит в соответствие действительные числа; в таком случае подмножество представляет собой область определения случайной величины Л. Часто нам неизвестно с определенностью, произошло событие в реальном мире или нет. В таком случае следует оценить вероятность события 0 < Р(А) < 1. Наступление событий Л и В одновременно описывается совместной вероятностью Р(А, В) Условная вероятность Р(А\В) выражает вероятность события Л, если событие В уже наступило. Фундаментальная зависимость между совместной и условной вероятностями описывается формулой умножения вероятностей (chain rule).

tel-icq