Распределенное индексирование

Распределенное индексирование Коллекции документов бывают такими большими, что на отдельном компьютере невозможно осуществить их эффективное индексирование. Это особенно актуально для сета веб; для создания веб-индекса разумного размера необходимы большие компьютерные кластеры . По этой причине поисковые машины в сети веб для создания индексов используют алгоритмы распределенного индексирования (distributed indexing). Результатом этого процесса является распределенный индекс (distributed index), разделенный между несколькими машинами, — либо по терминам, либо по документам. В этом разделе мы опишем распределенное индексирование для создания индекса, разделенного по терминам. Большинство крупных поисковых машин предпочитают индексы, распределенные по документам (которые легко создать на основе индексов, распределенных по терминам). К этой теме мы еще вернемся.

Метод создания распределенного индекса, описанный в этой главе, основан на общей архитектуре распределенных вычислений MapReduce. Архитектура MapReduce разработана для крупных компьютерных кластеров. Кластер предназначен для решения крупных вычислительных задач на дешевых серийных компьютерах, или узлах (nodes), которые состоят из стандартных частей (процессор, память, диск), в отличие от суперкомпьютера, имеющего специализированное аппаратное обеспечение. Поскольку в такой кластер входят сотни и тысячи машин, каждая из них в любой момент может выйти из строя. Следовательно, для надежного индексирования необходимо разделить работу на порции, которые легко распределить и в случае сбоя перераспределить. Процессом распределения и перераспределения задач среди отдельных рабочих узлов управляет главный узел (master node). Далее тут.

tel-icq