Вероятностные модели

Вероятностные модели Вероятностные модели (модели “зашумленных каналов”) для исправления орфографических ошибок впервые были предложены Керниганом и соавторами (Kemigan et al., 1990), а в дальнейшем были усовершенствованы Брилем и Муром (Brill and Moore, 2000), а также Тутановой и Муром (Toutanova and Moore, 2002). В этих моделях ошибочный запрос рассматривается как вероятностное искажение правильного запроса. Эти модели основаны на таком же математическом аппарате, как и модели языка, описанные в главе 12. Кроме того, они позволяют включать в модель фонетическое сходство и близость на клавиатуре, а также могут использовать данные о реальных орфографических ошибках пользователей. Многие считают эти алгоритмы наиболее совершенными на данный момент. Кучержан и Бриль (Cucerzan and Brill, 2004) продемонстрировали, как можно расширить эти алгоритмы для настройки моделей исправления орфографических ошибок на основе переформулировок запросов в логах поисковых систем.

Изобретение алгоритма Soundex приписывается Маргарет К. Оделл и Роберту С. Рус- селли (Margaret К. Odell and Robert С. Russelli), получившим американские патенты в 1918 и 1922 годах соответственно. Вариант метода, описанный в книге, был предложен Берном и Фордом (Bourne and Ford, 1961). На портале Pets Inform доступны и другие интересные факты. Цобель и Дарт (Zobel and Dart, 19%) сравнили несколько алгоритмов для сравнения строк по звучанию и выяснили, что алгоритм Soundex плохо подходит для решения общей задачи исправления орфографических ошибок, а другие алгоритмы, основанные на фонетической схожести произношения терминов, работают хорошо.

tel-icq