Ранжирование, взвешивание терминов и модель векторного пространства

Ранжирование, взвешивание терминов и модель векторного пространства До сих пор мы рассматривали документ как последовательность терминов. На самом деле большинство документов имеют дополнительную структуру. Электронные документы обычно сопровождаются метаданными (metadata), которые кодируются в виде, распознаваемом компьютерами. Под метаданными мы понимаем конкретные виды данных о документе, например фамилию автора, название и дату публикации. Эти метаданные обычно содержат поля метаданных (fields), например дату создания и формат документа, а также фамилию автора и, возможно, название документа. Множество возможных значений этих полей следует считать конечным, например множество всех дат создания документа ограничено.

Рассмотрим запрос “Найти документы, созданные Вильямом Шекспиром в 1601 году и содержащие слова alas poor Yorick". В этом случае обработка запроса сводится, как обычно, к поиску пересечения инвертированных списков, за исключением того, что мы можем объединить словопозиции как из стандартных инвертированных, так и из параметрических индексов (parametric indexes). Для каждого поля (например, для даты создания) существует один параметрический индекс; он позволяет выбрать только те документы, которые соответствуют дате, указанной в запросе. На рис. 6.1 показан интерфейс пользователя для параметрического поиска. Некоторые поля подразумевают упорядоченные значения (например, даты); в указанном выше запросе одним из таких значений является год “1601”. Поисковая машина может поддерживать запросы с указанием диа-пазонов таких упорядоченных значений; для хранения набора значений поля можно использовать такие структуры данных, как В-деревья.

Зоны (zones) напоминают поля, но содержанием зоны может быть произвольный текст. В то время как поле может иметь относительно небольшое множество значений, зона может содержать произвольный и неограниченный объем текста. Например, названия документов и аннотации обычно трактуются как зоны. Для того чтобы поддержать обработку запросов вида "Найти документы со словами merchant в названии и William — в списке авторов, а также с фразой gentle rain в тексте” для каждой зоны документа можно создать стандартный инвертированный индекс Такой индекс выглядит примерно так, как показано на рисунке. В то время как словарь для параметрического индекса создается на основе фиксированного списка значений (множества языков, множества дат), словарь для зонного индекса формируется на основе текстов размещенных в данной зоне.

tel-icq