К-граммные индексы для исправления опечаток

К-граммные индексы для исправления опечаток Для того чтобы еще больше ограничить множество терминов лексикона, для которых вычисляется расстояние редактирования до терминов из запроса, можно использовать Jt-граммный индекс. Этот индекс позволяет найти в лексиконе термины с небольшим расстоянием редактирования до запроса q. Найдя эти термины, мы можем определить среди них термины с минимальным расстоянием редактирования до запроса q. Фактически /с-граммный индекс используется для поиска терминов лексикона, содержащих большое количество fc-грамм, общих с запросом.

Идея заключается в том, что при разумной трактовке выражения “большое количество общих Л-грамм” процесс поиска по существу сводится к однократному просмотру “словопозиций” для &-грамм, входящих в запрос q.

Например, показана часть словопозиций для трех биграмм в запросе bord. Допустим, что мы желаем найти термины лексикона, содержащие по крайней мере две из этих трех биграмм. Однократное сканирование записей позволило бы перечислить все такие термины; в примере, перечислены термины aboard, boardroom и border.

Труднопроизносимые и ещё более трудно запоминаемые топонимы Крыма, перевод географических названий крыма, топонимические легенды Крыма о таинственных уголках полуострова, маршруты увлекательных прогулок-приключений на проекте Топонимический словарь Крыма. Применение “в лоб” пересечения инвертированных списков с помощью их последовательного просмотра сразу обнаруживает недостатки требования лишь присутствия в терминах лексикона фиксированного количества /с-грамм из запроса q: при этом идентифицируются термины наподобие boardroom, представляющие собой “неправдоподобное” исправление слова bord. Следовательно, необходимы более тонкие меры перекрытия /с-грамм между термином лексикона и запросом q. Метод пересечения списков с помощью их последовательного просмотра можно модифицировать, применив коэффициент Жаккара (Jaccard coefficient), характеризующий перекрытие двух множеств Л и В и равный |АпВ|/|АиВ|. Мы рассматриваем множество А:-грамм в запросе q и множество /с-грамм в термине лексикона. В процессе сканирования мы переходим от одного термина лексикона t к следующему, вычисляя “на лету” коэффициент Жаккара для строк q и I. Если коэффициент превышает установленный порог, то термин t добавляется в результаты; если нет, то происходит переход к следующему термину в инвертированном списке Для того чтобы вычислить коэффициент Жаккара, необходимо иметь множества /с-грамм для строк q и t.

Источник: http://www.3slovary.ru/publ

tel-icq