Байесовские сетевые подходы к информационному поиску

Байесовские сетевые подходы к информационному поиску Как сообщают Йенсен и Йенсен (Jensen and Jensen, 2001), использовать байесовские сети (Bayesian networks), одну из форм вероятностных графических моделей, в информационном поиске впервые предложили Тертл и Крофт (Turtle and Croft, 1989, 1991). Мы не будем углубляться в детали, поскольку полное описание формализма байесовских сетей заняло бы слишком много места, но в принципе байесовские сети основаны на ориентированных графах, иллюстрирующих вероятностные зависимости между переменными, как, например, на рискнке. Этот формализм привел к появлению сложных алгоритмов распространяющегося воздействия, чтобы обеспечить обучение и выводы на основе произвольных знаний в произвольных ориентированных ациклических графах. Тертл и Крофт использовали изощренную сеть для моделирования сложных зависимостей между документом и информационной потребностью пользователя.

Эта модель состоит из двух частей: сети коллекции документов и сети запроса. Сеть документов велика, но допускает предварительное вычисление; она отображает документы в термины, а затем — в концепции. Концепции — это расширения терминов, встречающихся в документе, с помощью тезауруса. Сеть запроса относительно мала, но при поступлении нового запроса ее необходимо создать заново, а затем присоединить к сети документов. Сеть запроса отображает термины запроса в выражения на основе запроса (построенные на основе вероятностных, или “зашумленных”, вариантов операторов AND и OR), которые, в свою очередь, отображаются в информационную потребность.

В результате возникает гибкая вероятностная сеть, которая способна обобщать разные булевы и вероятностные модели. Действительно, ее можно рассматривать как первый вариант вероятностной ранжирующей модели поиска, естественным образом поддерживающей структурные операторы в запросах. Эта система обеспечивала высокопроизводительный крупномасштабный поиск и стала основой текстовой поисковой системы InQuery, созданной в Университете Массачусетса. Она очень хорошо зарекомендовала себя в рамках экспериментов TREC и одно время распространялась на коммерческой основе. С другой стороны, эта модель по-прежнему использовала различные приближения и предположения о независимости, чтобы сделать возможными оценки параметров и другие вычисления. В этом направлении работа продвинулась недалеко, но следует отметить, что описываемая модель возникла на заре эры использования байесовских сетей, после чего были получены важные теоретические результаты. Возможно, что настало время для нового поколения информационно-поисковых систем, основанных на байесовских сетях.

Библиография и рекомендации для дальнейшего чтения

Более полное введение в теорию вероятностей можно найти в многочисленных учебниках (Grinstead and Snell, 1997; Rice, 2006; Ross, 2006). Введение в байесовскую теорию полезности изложено в книге Рипли (Ripley, 1996).

Вероятностный подход к информационному поиску возник в Великобритании в 1950-х годах. Первое описание вероятностной модели привели Марон и Кунс CMaron and

Kuhns, 1960). Основы модели BIM заложили Робертсон и Джоунс (Robertson and Jones, 1979), а детали классической вероятностной модели BIM представил ван Рийсберген (van Rijsbergen, 1979). Идея принципа PRP приписывается Робертсону (S.E. Robertson), Марону (М.Е. Магоп) и Куперу (W.S. Cooper). Робертсон и Джоунс (Robertson and Jones, 1976) использовали термин принцип вероятностного упорядочения (Probabilistic Ordering Principle — POP), но позднее общепринятым стал принцип вероятностного ранжирования (Probability Ranking Principle -— PRP). Более современное представление теории ве-роятностного информационного поиска изложено в работе Фура (Fuhr, 1992), в которой описаны и другие подходы, такие как вероятностная логика и байесовские сети. Другой обзор можно найти в работе Крестани и др. (Crestani et al., 1998). Спарк Джоунс и др. (Sparck Jones et al., 2000) дали исчерпывающие описания экспериментов в области вероятностного поиска, проведенных “Лондонской школой”, а Робертсон (Robertson, 2005) ретроспективно изложил результаты участия группы в проекте TREC, включая подробное обсуждение функции взвешивания Okapi ВМ25 и историю ее разработки. Робертсон и др. (Robertson et al., 2004) распространили метод ВМ25 на документы с различными полями.

Поисковая система с открытым кодом Indri, которая распространяется вместе в составе пакета Lemur (www. lemurproj ect. org), объединяет идеи байесовских сетей и подхода на основе языковых моделей. В частности, система поддерживает структурные операторы запросов

tel-icq