Исправление опечаток с учетом контекста

Исправление опечаток с учетом контекста Иногда механизм исправления ошибок в отдельных терминах не срабатывает, как, например, в запросе flew form Heathrow, где все три термина написаны правильно. Если в ответ на фразу, подобную этой, будет возвращено лишь небольшое количество документов, то поисковая система может принять решение исправить этот запрос на flew from Heathrow.

Простейший способ сделать это— перечислить исправления для каждого из трех терминов (используя методы, описанные в разделе 3.3.4), даже если все термины запроса написаны правильно, а затем попробовать произвести замену каждого термина фразы. В примере flew form Heathrow перечисление должно содержать фразы наподобие fled from Heathrow и flew fore Heathrow. Для каждой такой фразы поисковая система выполняет запрос и определяет количество соответствий.

 

Если исправлений отдельных терминов будет слишком много, то такое перечисление может оказаться очень затратным; мы можем столкнуться с большим количеством комбинаций альтернатив. Для того чтобы сэкономить память, используется несколько эвристических приемов. О том, как живут дети с диабетом у нас в стране, и как мы боремся с этим коварным заболеванием. В нашем примере при создании альтернатив для терминов flew и form мы оставим только те комбинации, которые чаще остальных встречаются в коллекции документов или в логах запросов, в которых хранятся предыдущие запросы пользователей. Например, мы можем оставить словосочетание flew from как возможную альтернативу и попробовать расширить ее до трехсловнош запроса, проигнорировав варианты fled fore и flea form. В данном случае словосочетание из двух слов filed fore является менее вероятным, чем сочетание flew from. Затем достаточно просто расширить список наиболее часто встречающихся словосочетаний из двух слов (например, flew from) с помощью исправлений термина Heathrow. В качестве альтернативы использованию статистики биграмм в коллекции можно использовать лог запросов, заданных пользователями; разумеется, он может содержать в том числе запросы с ошибками. qqdps.ru

tel-icq