Основы аппаратного обеспечения

Основы аппаратного обеспечения При построении систем информационного поиска многие решения зависят от характеристик компьютерного аппаратного обеспечения, на котором будет развернута система. По этой причине мы начинаем изложение с краткого обзора компьютерного аппаратного обеспечения. Рабочие характеристики типичных систем в 2007.

Блочное индексирование, основанное на сортировке

Сначала выполняется проход по коллекции и сбор всех пар “термин-docID”. Затем эти пары сортируются, причем в качестве главного ключа используется термин, а в качестве вторичного ключа — идентификатор документа docID. На заключительном этапе идентификаторы документа для каждого термина заносятся в инвертированный список и вычисляются статистические характеристики, например частота термина в документе (TFj и документная частота (DF). Для небольших коллекций все это можно проделать в оперативной памяти. В этой главе описываются методы, предназначенные для обработки крупных коллекций, которые требуют использования вторичной памяти.

Для повышения эффективности индексирования представим термины в виде идентификаторов терминов termlD вместо строк, где каждый идентификатор termID представляет собой уникальный порядковый номер. Отображение терминов в идентификаторы терминов можно осуществить “на лету” в момент обработки коллекции или, в двухпроходных методах, на первом проходе скомпилировать лексикон, а на втором проходе — создать инвертированный индекс. В этой главе описаны только однопроходные алгоритмы создания индекса. Ссылки на работы, посвященные многопроходным методам, которые являются предпочтительными в некоторых приложениях, например, если память на диске ограничена.

В качестве примера будем использовать коллекцию Reuters—RCV1, размер которой составляет примерно 1 Гбайт. Она состоит приблизительно из 800 тысяч документов новостной ленты агентства Рейтер на протяжении одного года — с 20 августа 1996 года по 19 августа 1997 года. Следует отметить, что в этой книге мы игнорируем мультимедийную информацию и основное внимание уделяем тексту. Коллекция Reuter-RCVl охватывает широкий диапазон международных тем, включая политику, бизнес, спорт и (как в приведенном примере) науку.

Объем коллекции Reuters-RCVl — 100 миллионов лексем. Следовательно, для создания множества всех пар “termlD-docID” для этой коллекции, использующей по 4 байт на идентификаторы termID и docID, требуется 0,8 Гбайт памяти. В настоящее время типичные коллекции на один и даже на лва порядка больше, чем коллекция Reuters-RCV 1 Можно легко увидеть, что попытка отсортировать пары “termlD-docID” в оперативной памяти для такой коллекции провалится даже на мощных современных компьютерах.

 

При создании сайтов профессионалы используют CSS. Тем, кто хочет сам освоить эту технологию, мы рекомендуем начать с бесплатных видео уроков по CSS, а после этого приступить к практике. Но в сложных проектах мы советуем обращаться к профессионалам. Если размер промежуточных файлов индексирования сравним с размером доступной оперативной памяти, то проблему можно решить с помощью методов сжатия. Однако инвертированные файлы для многих больших коллекций не помещаются в память даже после сжатия.

tel-icq