Древовидные зависимости между терминами

Древовидные зависимости между терминами Некоторые предположения модели BIM можно устранить. Например, можно избавиться от предположения о независимости терминов. Это предположение очень далеко от действительности. Например, оно нарушается для терминов Hong и Kong, которые сильно зависят друг от друга. Зависимости могут встречаться и в более сложных конфигурациях, например в множестве терминов New, York, England, City, Stock, Exchange и University. Ван Рийсберген (van Rijsbergen, 1979) предложил простую и надежную модель, допускающую древовидную зависимость между терминами. В этой модели каждый термин может непосредственно зависеть только от одного другого термина, что порождает древовидную структуру зависимостей. Когда эта модель была изобретена в 1970-х годах, ее практическому применению помешали проблемы с получением оценок, но в 1996 году эта идея возродилась в наивной древовидной байесовской модели Фридмана и Голдшмидта (Friedman and Goldszmidt, 1996), которая с определенным успехом использовалась на разных наборах данных для машинного обучения.

Модель BIM изначально предназначалась для коротких записей в библиотечных каталогах и аннотаций небольшой длины. В этом контексте она вполне оправдывала себя, но очевидно, что в современных полнотекстовых коллекциях поисковая модель должна учитывать частоту термина и длину документа, как указано в главе 6. Схема взвешивания ВМ25 (ВМ25 weighting scheme), которая часто называется схемой Okapi (Okapi weighting) по имени системы, в которой она была впервые внедрена, была разработана как способ построения вероятностной модели, чувствительной к частоте термина и длине документа, но не использующей слишком много дополнительных параметров (Sparck Jones et al., 2000). Мы не будем излагать полную теорию, лежащую в основе этой модели, а приведем ряд формул, которые в настоящее время стали стандартными формулами ранжирования документов. Простейшая схема ранжирования документа d — это схема взвешивания, основанная на обратной документной частоте терминов запроса, как в равенстве.

Этот вариант ведет себя несколько странно. Если термин появляется более чем в половине документов коллекции, то вес термина будет отрицательным, что, по идее, нежелательно. Однако при использовании списка стоп-слов этого обычно не происходит, и можно считать, что минимальное значение каждого слагаемого равно нулю.

Мы улучшим равенство, если учтем частоту каждого термина и длину документа.

Здесь tf(d — частота термина t в документе d, a Ld и Lme — длина документа d и средняя длина документа во всей коллекции. Переменная А.! — это положительный параметр настройки, с помощью которого производится калибровка частоты термина. Если kt- 0, то модель становится бинарной (частота термина не учитывается), а если параметр к\ принимает большие значения, то это эквивалентно прямому подсчету частоты термина (raw term frequency). Переменная b — еще один параметр настройки (0<b< 1), определяющий нормировку по длине документа: b = 1 соответствует полноценному маспггабированию веса термина с помошью длины документа, а b - 0 не предусматривает нормировки по длине.

Если запрос является длинным, например подробное описание информационной потребности длиной в абзац, то аналогичное взвешивание можно применить к терминам запроса. Для коротких запросов в этом нет необходимости

Здесь tf,e — частота термина t в запросе q, a fc3 — еще один параметр настройки, который влияет на нормировку частоты термина запроса. В представленном равенстве не произведена нормировка длины (т.е. b = О). Нормировка длины запроса необязательна, поскольку поиск выполняется по одному фиксированному запросу. Параметры настройки в этих формулах в идеальном случае должны обеспечить оптимальную производительность на рабочей тестовой коллекции. Иначе говоря, можно определить значения этих параметров, обеспечивающие максимум производительности на отдельной тестовой коллекции (либо вручную, либо с помощью методов оптимизации, таких как сеточный поиск (grid search) или какой-нибудь более совершенный метод), а затем использовать эти параметры на коллекции для окончательного тестирования. Без такой оптимизации, как показали эксперименты, разумно выбрать следующие параметры: к, и к< — между 1,2 и 2, а b = 0,75

Если есть оценки релевантности, то вместо приближения log(Mdf,), предложенного в формуле, можно использовать полную формулу.

Здесь VR„ VNR, и VR — множества, введенные в разделе 11.3.4. Первая часть этого выражения отражает наличие обратной связи по релевантности (или просто схему взвешивания idf, если информации о релевантности нет), вторая часть содержит частоту термина и масштабирование с учетом длины документа, а третья учитывает частоту термина в запросе.

Обратная связь по релевантности предусматривает не только пересчет весов терминов запроса пользователя, но и расширение запроса (автоматическое или с ручной проверкой). Запрос расширяется лучшими (скажем, десятью или двадцатью) терминами из документов, оцененных как релевантные, на основе показателя с. из равенства (11.21). В приведенной выше формуле может использоваться расширенный запрос q.

Схема взвешивания терминов ВМ25 применялась довольно широко и успешно для разных коллекций и поисковых задач. Особенно хорошо она зарекомендовала себя в рамках экспериментов TREC. Мотивация ее применения и описание экспериментальных результатов приведены в работе Спарка Джоунс (Sparck Jones et al., 2000).

tel-icq