Реализация исправления опечаток

Реализация исправления опечаток В основе большинства алгоритмов исправления опечаток лежат два фундаментальных принципа.

1. Из всех альтернативных правильных способов написания искаженного запроса выбирается “ближайший”. Для этого необходимо понятие близости между двумя запросами. Меры близости.

2. Если два правильно записанных запроса связаны (или почти связаны) друг с другом, то выбирается более распространенный вариант. Например, запросы grunt и grant выглядят одинаково подходящими вариантами для исправления запроса gmt.

Следовательно, алгоритм должен выбрать тот вариант, который чаще используется. Наиболее простой оценкой частоты использования слова является количество появлений этого термина в коллекции документов; следовательно, если слово grunt встречается чаще, чем слово grant, то следует выбрать именно его. Во многих поисковых системах, особенно в вебе, используется другой способ оценки распространенности термина. Его идея заключается в том, чтобы использовать в качестве исправления то, что чаще всего встречается в запросах других пользователей. В частности, если слово grunt в запросах встречается чаще, чем слово grant, то, скорее всего, пользователь, напечатавший слово grnt. хотел напечатать слово grunt.

 

Мы рассмотрим понятие близости между запросами, а также алгоритмы ее эффективного вычисления. Методы исправления ошибок в запросе основаны на этих алгоритмах. Об этом также можно почитать на сайте по адресу: http://www.yourinternetportal.ru/ - в блоге этого сайта.

tel-icq