k-граммный индекс для шаблонных запросов

k-граммный индекс для шаблонных запросов Несмотря на простоту перестановочного индекса его использование может привести к чрезмерному увеличению из-за большого количества перестановок для каждого термина; для словаря английских терминов это увеличение может оказаться десятикратным. Рассмотрим теперь второй метод обработки запросов с джокерами, основанный на fc-граммном индексе. К-грамма (fc-gram) - это последовательность, состоящая из & символов. Таким образом, cas, ast и stl — это 3- граммы, содержащиеся в термине castle. Для обозначения начала или конца термина используется специальный символ $, так что полный набор 3-грамм, образованных от слова castle, таков: $са, cas. ast, stl, tie и le$.

Как обработать запрос с джокером с помощью такого индекса? Рассмотрим в качестве примера запрос re*ve. Мы ищем документы, содержащие любой термин, начинающийся с префикса ге и заканчивающийся суффиксом ve. Соответственно, необходимо обработать булев запрос $re AND ve$. Поиск производится по 3-граммному индексу. В результате возникает список соответствующих терминов, таких как relive, remove и retrieve. Затем осуществляется поиск каждого из этих терминов в стандартном инвертированном индексе и выявляются документы, соответствующие данному запросу.

Однако с использованием /с-граммных индексов связана одна трудность, для устранения которой требуется дополнительный шаг. Рассмотрим использование 3-граммного индекса, предназначенного для обработки запроса red*. Следуя указанным инструкциям, сначала передадим 3-граммному индексу булев запрос $re AND RED. Феодосия достопримечательности - потухший вулкан Кара-Даг, руины крепости Кафа, галерея Айвазовского, музей Грина, первый в Российской империи провинциальный музей Древностей (краеведческий), музей Денег, музей Цветаевых, музей Веры Мухиной.

Как мы убедились, обработку шаблонного запроса можно свести к нескольким терминам, каждый из которых становится однословным запросом к стандартному инвертированному индексу. Поисковые системы позволяют комбинировать запросы с джокерами и логические операторы, например re*d AND fe*ri. Какова семантика этого запроса? Поскольку каждый запрос с джокером превращается в дизъюнкцию однословных запросов такой запрос уместно интерпретировать как конъюнкцию дизъюнкций мы ищем все документы, содержащие любой термин, соответствующий запросу re*d, и любой термин, соответствующий запросу f e*ri. Источник: http://www.3slovary.ru/publ

tel-icq