Фразовые запросы

Фразовые запросы Представление документа в виде вектора в основе своей приводит к потере информации. При кодировании документа в виде вектора теряется относительный порядок терминов в документе. Даже если мы попытаемся интерпретировать каждое двухсловие (biword) как термин (т.е. как ось в векторном пространстве), то веса по разным осям не будут независимыми. Например, фраза German shepherd кодируется по оси german sheperd и немедленно получает ненулевой вес по осям german и shepherd. Более того, для двухсловий необходимо как-то распространить такие понятия, как обратная документная частота. Таким образом, индекс, построенный для поиска в векторном пространстве, в принципе, не может быть использован для обработки фразового запроса. Более того, не существует никакого способа ранжирования документов в векторном про-странстве относительно фразового запроса — мы знаем лишь относительные веса каждого термина в документе.

При обработке запроса german shepherd мы могли бы использовать модель векторного пространства для идентификации документов, в которых эти термины встречаются часто, но не можем учесть порядок их следования. С другой стороны, фразовый поиск позволяет выявить наличие фразы german shepherd в документе без указания ее относительной частоты или веса. Несмотря на то что эти две парадигмы поиска (фразовая и векторная) имеют разные реализации на уровне индексов и алгоритмов поиска, в некоторых случаях их комбинация оказывается полезной.

Библиография и рекомендации для дальнейшего чтения

Эвристические приемы предварительной обработки запросов описаны в работах Ана и др. (Anh et al., 2001), Гарсиа и др. (Garcia et al., 2004), Ана и Моффата (Anh and Moffat, 2006b), а также Персина и др. (Persin et al., 1996). Отсечение кластеров исследовано Син- гитамом и др. (Singitham et al., 2004) и Чиеричетти и др. (Chierichetti et al., 2007). См. также раздел 16.6. Чемпионские списки описаны Персином (Persin, 1994) и (под названием топ-документы) Брауном (Brown, 1995). В дальнейшем эта идея развивалась в работах Брина и Пейджа (Brin and Page, 1998), а также Лонга и Зуля (Long and Suel, 2003). Несмотря на то что эти эвристические методы хорошо подходят для обработки свободных текстовых запросов, которые можно интерпретировать как векторы, их трудно применить к фразовым запросам. Структура индекса, поддерживающего как взвешенный, так и булев/фразовый поиск, описана в работе Ана и Моффата (Anh and Moffat, 2006с). Оценка близости терминов для поиска документов описана в работах Кармела и др. (Carmel et al, 2001), Кларка и др. (Clarke et al., 2000), а также Сонга и др. (Song et al., 2005). Пионерские работы, посвященные получению функции ранжирования на основе обучения, были выполнены Фуром (Fuhr, 1989), Фуром и Пфайфером (Fuhr and Pfeifer, 1994), Купером и др. (Cooper et al., 1994), Бартеллом и др. (Bartell et al., 1998), а также Коэном и др. (Cohen et al., 1998)

tel-icq