Статистические характеристики терминов в информационном поиске

Статистические характеристики терминов в информационном поиске Как и в предыдущей статье, в качестве модельной коллекции мы будем использовать коллекцию Reuters-RCVl . Для начала приведем несколько статистических показателей, характеризующих термины и словопозиции в этой коллекции. Символ А% означает процент сжатия по отношению к предыдущей строке. Символ Т% означает общий процент сжатия по отношению к исходным данным.

Здесь приведено количество терминов на разных уровнях предварительной обработки (столбец 2). Количество терминов является основным фактором, влияющим на определение размера словаря. Количество некоординатных словопозиций (столбец 3) представляет собой индикатор ожидаемого размера некоординатного индекса коллекции. Ожидаемый размер координатного индекса связан с количеством координат, которые он должен закодировать (столбец 4).

В целом статистические показатели свидетельствуют о том, что предварительная обработка сильно влияет на размер словаря и количество некоординатных словопозиций. Стемминг и свертывание регистра сокращают количество различных терминов на 17% каждый, а количество некоординатных словопозиций — на 4 и 3% соответственно. Обработка наиболее часто встречающихся слов также важна. Прави- тридцати (rule of 30) утверждает, что 30 наиболее распространенных слов образуют Jf»e лексем в письменном тексте (этот показатель равен 31%). Исключение из процесса индексирования 150 наиболее распространенных слов (так называемых стоп- слов) сокращает количество некоординатных словопозиций | т 25-30%. Несмотря на то, что список 150 стоп-слов сокращает количество словопозиций на четверть или более, эквивалентного уменьшения размера не наблюдается на сжатом индексе. Как будет показано далее, инвертированный список часто употребляемых слов после сжатия требует лишь несколько битов на запись после сжатия. Широкий спектр электроизоляционных материалов:Фторопласт, Текстолит, Стеклотекстолит, Капролон, Паронит, Изолента, Оргстекло и пр.со склада в Санкт-Петербурге во все регионы России!

Показатели Д, указанные в таблице, типичны для больших коллекций. Однако следует отметить, что у некоторых текстовых коллекций процентное сокращение может сильно сличаться. Например, в коллекции веб-страниц с высокой долей французского текста лемматизатор сокращает размер словаря намного больше, чем стеммер Портера, примененный к коллекции, состоящей только из английских документов, поскольку морфология французского языка намного богаче морфологии английского.

tel-icq