Сглаживания

Сглаживания Таким образом, для того чтобы устранить нулевые вероятности и присвоить определенные вероятности словам, которые в тексте не встретились, в языковых моделях необходимо применять сглаживание. Для сглаживания распределений вероятностей предложено много методов. В разделе мы уже обсуждали добавление числа (1, 1/2 или малого а) к наблюдаемым частотам и их нормировку. В этом разделе мы рассмотрим ряд других методов сглаживания, связанных с комбинированием наблюдаемых частот с более общим распределением вероятности. Считается, что термины, которые не появляются в документе, могут появляться в запросах, однако их вероятность должна быть меньше или равна вероятности случайного появления термина во всей коллекции.

Здесь 0 < X < 1, а Мс — языковая модель, построенная по всей коллекции документов. Это распределение представляет собой смесь распределений вероятностей термина по документу и по коллекции. Такая модель называется языковой моделью, основанной на линейной интерполяции (linear interpolation LM). Для хорошего функционирования этой модели важен правильный выбор параметра X.

Альтернативой является использование языковой модели, построенной по всей коллекции, в качестве априорного распределения для байесовского процесса уточнения данных (Bayesian updating process) (в противоположность равномерному распределению).

Оба эти метода сглаживания хорошо показали себя в экспериментах. В оставшейся части раздела мы будем придерживаться метода сглаживания с помощью линейной интерполяции. Несмотря на различия в деталях оба метода, в принципе, похожи друг на друга. В обоих вариантах оценка вероятности появления слова в документе представляет собой сочетание дисконтированной оценки максимального правдоподобия и доли оценки на основе встречаемости во всей коллекции, причем для слов, не представленных в документе, оценка базируется только на встречаемости во всей коллекции.

Сглаживание в языковых моделях не сводится лишь к решению проблем, связанных с оценками Этот факт еще не был ясен, когда модели были предложены впервые, но сейчас понятно, что сглаживание позволяет улучшить качество модели в целом. Причины этого явления будут исследованы в упражнении. Степень сглаживания в описанных моделях зависит от параметров Хна. Небольшое значение параметра X или большое значение параметра а означает сильное сглаживание. Управляя этими параметрами, можно оптимизировать производительность модели, используя линейный поиск (или, в случае модели линейной интерполяции другими методами, например, ЕМ-алгоритм). Их величины не обязаны быть постоянными. Один из подходов — сделать значение функцией от размера запроса. Это полезно, поскольку для коротких запросов лучше подходит небольшое сглаживание (“почти конъюнктивный” поиск), а для длинных — сильное сглаживание.

tel-icq