Библиография и рекомендации для дальнейшего чтения

Библиография и рекомендации для дальнейшего чтенияИсчерпывающее обсуждение посимвольной обработки текстов на восточно-азиатских языках изложено в работе Лунде (Lunde, 1998). Вероятно, наиболее распространенным подходом к индексированию китайских текстов являются индексы биграмм, хотя некоторые системы используют выделение слов из строки. Из-за различия между языком и системой письменности выделение слов из строки наиболее полезно при обработке японских текстов (Luk and Kwok, 2002; Kishida et al., 2005). Структура индекса &-грамм, построенного на основе несегментированного текста, отличается от структуры: там словарь &-грамм ссылается на список элементов в обычном словаре, в то время как здесь он ссылается непосредственно на инвертированные списки документа. Дальнейшее обсуждение вопросов выделения китайских слов можно найти в работах Шпрота, Эмерсона, Цзэна, Гао и др. (Sproat et al., 1996; Sproat and Emerson, 2003; Tseng et al., 2005; и Gao et al., 2005). www.sat-nn.net

tel-icq