Частота термина и взвешивание

Частота термина и взвешивание До сих пор ранжирование документа зависело от того, присутствует ли термин запроса в зоне документа. Теперь мы сделаем следующий логический шаг: документ или зона, где термин запроса встречается чаще, следует считать более релевантным запросу и присвоить ему более высокое значение релевантности. Для обоснования этой точки зрения напомним понятие свободного текстового запроса: запрос, в котором термины вводятся в интерфейс поисковой машины в свободном виде, без соединительных операторов (таких, как булевы операторы). Такой стиль, весьма популярный в сети веб, рассматривает запрос просто как множество слов. Следовательно, для подсчета показателя документа достаточно просто суммировать показатели соответствия документа каждому из слов запроса.

Для этого присвоим каждому термину, обнаруженному в документе, вес (weight), зависящий от количества появлений этого термина в данном документе. Мы хотим оценить соответствие между термином запроса t и документом d, основываясь на весе термина t в документе d. Проще всего положить этот вес равным количеству вхождений термина t в документ d. Эта схема взвешивания называется частотой термина (term frequency) и обозначается как tf,iA где индекс t обозначает термин, а индекс d — документ.

Для документа d набор весов tf (или определенных с помощью любой другой весовой функции, которая ставит в соответствие количеству появлений термина t в документе d некое положительное действительное число) можно интерпретировать как дайджест документа, выраженный в числовом виде. Эта модель в научной литературе называется мешком слов (bag of words model). В рамках этой модели точный порядок следования терминов в документе игнорируется, а основное значение придается количеству вхождений каждого термина в документ (в противоположность булеву поиску). Мы только накапливаем информацию о количестве вхождений каждого термина. Таким образом, документ Mary is quicker than John в этой модели идентичен документу John is quicker than Mary. Тем не менее интуитивно ясно, что два документа с одинаковыми “мешками слов” по содержанию очень сходны. Мы разовьем этот подход поздже.

tel-icq