Лексикон и списки словопозиций

Лексикон и списки словопозицийНапомним основные этапы построения инвертированного индекса.

В этой статье мы сначала кратко опишем, как определить основные единицы документа и обнаружить последовательность символов, которые в нем содержатся. После этого мы подробно исследуем несколько важных тем, связанных с выделением лексем и предварительной лингвистической обработкой, в результате которой возникает лексикон терминов, используемый системой. Выделение лексем (tokeniza- tion) — это процесс разделения потока символов на лексемы. В ходе предварительной лингвистической обработки возникают классы эквивалентных лексем, образующие множество терминов, по которым происходит индексирование. Затем рассматривается реализация инвертированных списков.

Одежда для маленьких собак.

 

tel-icq