Лемматизатор

ЛемматизаторВместо алгоритма стемминга можно использовать лемматизатор (lemmatizer), инструмент из области обработки естественного языка (natural language processing), выполняющий полный морфологический анализ для точного определения леммы каждого слова. Полный морфологический анализ приносит весьма скромный выигрыш при информационном поиске. Трудно сказать что-то более конкретное, так как ни одна из форм нормализации не повышает суммарную эффективность поиска информации на английском языке, по крайней мере не способна увеличить ее значительно. Несмотря на то что для некоторых запросов лемматизация может оказаться очень полезной, для остальных запросов она существенно снижает производительность. Стемминг повышает полноту, но снижает точность поиска. Для того чтобы продемонстрировать недостатки этих алгоритмов, отметим, что алгоритм Портера обрезает все слова operate operating operates operation operative operatives operational до слова oper. Поскольку слово operate во всех своих формах является распространенным глаголом, точность для следующих запросов сильно снизится при использовании алгоритма Портера.

В таких ситуациях лемматизация не помогает полностью решить проблему, так как конкретные словоформы используются в словосочетаниях: предложение со словами operate и system не полностью соответствуют запросу operating AND system. Эффект от нормализации терминов зависит в большей степени от прагматических аспектов словоупотребления, чем от формальных морфологических аспектов.

Иначе обстоят дела для языков с более сложной морфологической структурой (например, для испанского, немецкого и финского). Результаты европейского форума CLEF (Cross Language Evaluation Forum) многократно демонстрировали, что использование алгоритмов стемминга (и разбиения составных слов для немецкого языка) дает существенный выигрыш. Вашему вниманию музыка ансамбля Ніоплан, а также детальная информация об этом коллективе.

tel-icq