Другие языки

Другие языки программированияАнглийский язык является доминирующим языком в вебе; примерно 60% веб-страниц написаны на английском языке (Gerrand, 2007). Тем не менее остальные 40% веб-страниц созданы на других языках, причем их доля со временем будет возрастать, поскольку меньше трети пользователей Интернета и меньше 10% людей во всем мире считают английский своим основным языком. Признаки изменений наблюдаются уже: по некоторым данным (Sifry, 2007) только треть записей в блогах написаны на английском языке.

Другие языки, в свою очередь, создают разнообразные проблемы в выделении классов эквивалентных слов. Например, французский определенный артикль имеет разные формы, зависящие не только от рода (мужского или женского) и от количества последующих имен существительных, но и от того, с какого звука начинается следующее слово (la, le, V или les). Естественно создать класс эквивалентности для разных форм определенного артикля. В немецком языке существует правило, согласно которому гласные буквы с умлаутом могут быть представлены двумя буквами. По этой причине слова Schiitze и Schuetze считаются эквивалентными.

Всеми признано, что японская система письменности является очень сложной . Современный японский алфавит представляет собой смесь разных алфавитов (в основном китайских символов), двух слоговых азбук (хирагана и катакана), а также символов из западных языков (латинские буквы, арабские цифры и другие символы). Несмотря на строгие правила и стандартизацию японской письменности, во многих случаях одно и то же слово может быть записано по-разному. Например, слово может быть записано с помощью слоговой азбуки катакана для выразительности (аналогично выделению курсивом) или слоговой азбуки хирагана, или китайскими символами. Таким образом, для успешного поиска информации необходимо выполнить сложную процедуру создания классов эквивалентности слов из разных систем японской письменности. В частности, пользователь может применять исключительно слоговую азбуку хирагана, поскольку ее символы легче набирать на клавиатуре, точно так же как западные пользователи в основном применяют нижний регистр.

Индексируемые коллекции часто содержат документы на разных языках. Впрочем, отдельный документ также может быть многоязычным. Например, электронное сообщение на французском языке может содержать цитату из контракта на английском. Как правило, сначала осуществляется распознавание языка, а затем — разбиение текста на лексемы и нормализация по правилам для данного языка, учитывающим заранее установленную степень детализации, например, по всему документу или по абзацам. Однако такой подход не срабатывает, если документ содержит краткие цитаты на других языках. Если коллекции документов являются многоязычными, то индекс может содержать термины из разных языков. В частности, можно сначала применить к документу классификатор языков, а затем пометить термины в лексиконе соответствующего языка. Иногда эта разметка игнорируется, поскольку последовательности символов на разных языках редко совпадают.

При обработке иностранных или сложных слов, в особенности иностранных имен, орфография может быть неясной или могут существовать различные правила транслитерации, приводящие к различным вариантам (например, Chebyshev и Tchebycheff или Beijing и Peking). Для решения этой проблемы можно использовать эвристические правила создания классов эквивалентности или расширять термины с помощью фонетических эквивалентов. Чаще всего для этого применяются такие алгоритмы, как Soundex. На сайте sovetidlavas.ru можно найти очень интересные статьи женской тематики.

tel-icq