Обратная документная частота

Обратная документная частота Подсчет “в лоб” частоты термина, описанный выше, имеет серьезный недостаток: при ранжировании документа по запросу все термины считаются одинаково важными. На самом деле некоторые термины имеют малую или нулевую различительную силу при определении релевантности. Например, коллекция документов об автомобильной промышленности, скорее всего, содержит термин “auto” практически в каждом документе. Для того чтобы устранить указанный недостаток, мы введем механизм ослабления влияния термина, который встречается в коллекции слишком часто, чтобы его имело смысл учитывать при определении релевантности документов. На ум сразу же приходит идея снизить веса у терминов с высокой частотой в коллекции (collection frequency), представляющей собой общее количество вхождений термина в коллекцию. Идея состоит в том, чтобы уменьшить вес термина if на коэффициент, который увеличивается по мере увеличения его частоты в коллекции.

Вместо этого чаще встречается использование документной частоты df, (document frequency), представляющей собой количество документов в коллекции, содержащих термин t. Это объясняется тем, что, пытаясь найти различия между документами с целью их ранжирования по запросу, лучше использовать статистические показатели именно самих документов (например, количество документов, содержащих заданный термин), чем статистические показатели коллекции в целом. Преимущество документной частоты перед частотой в коллекции продемонстрировано на рис. 6.7, где на простом примере продемонстрировано, что частота в коллекции (cf) и документная частота (df) могут вести себя по-разному. В частности, частоты терминов try и insurance в коллекции примерно одинаковы, в то время как документные частоты этих терминов сильно отличаются друг от друга. Интуитивно ясно, чтЪ документы, содержащие слово insurance, должны иметь большую релевантность по отношению к запросу, содержащему термин insurance, чем документы, содержащие слово try, по отношению к запросу, содержащему термин try.

tel-icq