Каждый новый язык порождает новые проблемы

Каждый новый язык порождает новые проблемыНапример, в французском языке апостроф может использоваться для сокращения определенного артикля перед словом, начинающимся с гласного звука (например, Vensemble). Кроме того, в французском языке дефис может использоваться в клитических местоимениях, расположенных после существительного в императивных и вопросительных предложениях (например, donne-moi — “дай мне”). Правильная обработка первого случая приводит к корректному индексированию большого количества существительных и прилагательных, т.е. к требованию, чтобы слова Г ensemble и ип ensemble индексировались термином ensemble. Другие языки порождают еще более сложные проблемы. Так, в немецком языке сложные слова записываются слитно (например, Computerlinguistik — “компьютерная лингвистика”; Lebensversicherungsgesellschaftsangestellter— “сотрудник общества по страхованию жизни”). Чтобы повысить эффективность работы поисковых систем для немецкого языка, используется модуль, разбивающий сложные слова на несколько составных частей (compound splitter). Наиболее ярко этот эффект проявляется в восточно-азиатских языках (например, в китайском, японском, корейском и тайском): в них вообще нет пробелов.

Для решения этой проблемы можно было бы на этапе предварительной лингвистической обработки провести сегментацию на слова (word segmentation). Методы сегментации на слова весьма разнообразны: от использования большого лексикона (выполняется поиск самой длинной последовательности, представленной в лексиконе, дополнительно используются эвристики для незнакомых слов) до использования методов машинного обучения, таких как скрытые марковские модели или условные случайные поля (CRF), обученные на основе слов, выделенных вручную. Из-за неоднозначности сегментации последовательностей символов все эти методы иногда порождают ошибки и поэтому не могут гарантировать непротиворечивое и однозначное разбиение на лексемы.

Альтернативный метод основан на отказе от индексирования слов и переходе к индексированию коротких подпоследовательностей символов независимо от того, пересекают ли эти под-последовательности границы слов. В пользу этого подхода можно высказать три довода, символы китайского языка представляют собой скорее слоги, чем буквы, и обычно имеют семантическое содержание; большинство слов являются короткими (чаще всего слово состоит из двух символов) и, с учетом отсутствия стандарта разбиения слов в разных системах письменности, не всегда ясно, где расположены границы слов. Даже в английском языке границы некоторых слов определяются в соответствии с орфографическими соглашениями (например, notwithstanding, но not to mention, и into, но on to), однако в процессе обучения люди привыкают писать слова так, как принято. Новости ушу на Украине и в мире.

tel-icq