Фазы отображения

Фазы отображения Фазы отображения (тар) и свертки (reduce) алгоритма MapReduce разделяют вычислительную работу на порции (chunk), с которыми стандартные машины мотуг справиться за короткое время. На первом этапе входные данные, в нашем случае — коллекция веб-документов, разделяются на и разделов (splits), размер которых выбирается так, чтобы гарантировать равномерное (порции не должны быть слишком крупными) и эффективное (общее количество порций не должно быть слишком большим) распределение. Удобными размерами разделов для распределенного индексирования являются 16 и 64 Мбайт. Распределение разделов по компьютерам заранее не определено — эта задача возложена на главный узел, который должен ее решать постоянно. Когда компьютер заканчивает обработку одной части, ему назначается другая. Если компьютер выходит из строя или работает слишком медленно из-за аппаратных проблем, то соответствующая часть переназначается другому компьютеру.

Архитектура MapReduce разделяет большую вычислительную задачу на более мелкие части, манипулируя парами “юиоч-значение”, При индексировании пара “ключ-значение” имеет вид (termlD, docID). При распределенном индексировании преобразование терминов в идентификаторы терминов term ID также является распределенным, а значит, представляет собой более сложную задачу, чем при индексировании на отдельной машине. Для этого достаточно просто поддерживать (возможно, заранее вычисленное) преобразование термина в termID для часто встречающихся терминов на всех узлах, а при работе с относительно редко встречающимися терминами использовать сами термины, а не их идентификаторы. Решение этой задачи здесь не приводится, и предполагается, что отображение “term —* termID” правильно осуществляется во всех узлах. Читай подробней...

tel-icq