Проблемы связанные с XML-поиском

Проблемы связанные с XML-поиском В этом разделе мы обсудим несколько проблем, которые делают структурированный поиск более сложным, чем неструктурированный. Напомним основные предположения, на которых основывается структурированный поиск: коллекция состоит из структурированных документов, а запросы могут быть как структурированными, так и неструктурированными (например, summer hoi iday).

Первая проблема, связанная со структурированным поиском, заключается в том, что пользователи хотят получить части документов (т.е. XML-элементы), а не документы целиком, как в неструктурированном поиске. Если мы запрашиваем поиск по пьесам Шекспира. содержащим фразу Macbeth1 s castle, то что вернуть в ответ: сцену, акт или всю пьесу? В этом случае пользователи, вероятно, ищут сцену. С другой стороны, в ответ на неконкретный запрос на слово Macbeth следует возвращать пьесу с таким названием, а не ее часть.

Одним из критериев выбора наиболее подходящей части документа является принцип структурированного поиска документов (structured document retrieval principle).

Система должна всегда находить часть документа, которая наиболее точно соответствует запросу.

Этот принцип обосновывает стратегию поиска, который выявляет элемент наименьшего размера, содержащий искомую информацию, и не углубляется на более низкий уровень. Однако этот принцип трудно реализовать в виде алгоритма. Рассмотрим запрос title#"Macbeth". Этому запросу соответствуют как название трагедии, Macbeth, так и заглавие сцены vii из первого акта, Macbeth's castle. Тем не менее, поскольку название трагедии записано в узле более высокого уровня, предпочтение отдается именно ему. Решение, на каком уровне дерева следует остановить поиск, представляет собой трудную задачу.

Одновременно с задачей, какую часть документа следует вернуть пользователю, необходимо решить, какие части документа подлежат индексированию. В разделе мы обсудили необходимость ввести понятие единицы документа, или единицы индексирования (indexing unit), для процессов индексирования и поиска. В неструктурированном поиске обычно ясно, какой должна быть единица документа: файлы на вашем компьютере, сообщения электронной почты, веб-страницы и т.д. В структурированном поиске существует множество разных подходов к определению единицы индексирования.

Один из этих подходов предусматривает группировку узлов в непересекающиеся псевдодокументы. В этом примере в качестве единиц индексации используются непересекающиеся книги, главы и разделы. Например, крайняя слева единица индексирования содержит только те части дерева, находящиеся под узлом book, которые еще не стали частью других единиц индексирования. Недостаток этого подхода заключается в том, что такие псевдодокументы могут не иметь смысла в глазах пользователя, поскольку между ними может не быть связи. Например, крайняя слева единица индексирования объединяет три разных элемента: class, author и title.

В качестве единицы индексирования можно также использовать один из крупных элементов, например элемент book в коллекции книг или элемент play в собрании сочинений Шекспира. С помощью постобработки результатов поиска можно найти наиболее подходящий подэлемент. Например, в ответ на запрос Macbeth1 s castle можно вернуть пьесу Macbeth, которая затем обрабатывается дополнительно, чтобы идентифицировать акт I, сцену vii, как элемент, наиболее точно соответствующий запросу. К сожалению, этот двухэтапный процесс поиска во многих случаях не позволяет вернуть наилучший подэлемент, поскольку релевантность всей книги часто плохо предсказывает релевантность ее небольших частей.

Вместо поиска крупных единиц и идентификации подэлементов (сверху вниз) можно найти все листья, выбрать среди них наиболее релевантные и расширить до более крупных единиц в ходе дополнительной обработки (снизу вверх). При выполнении запроса Macbeth's castle, на первом проходе найдем заголовок Macbeth's castle, а затем на этапе последующей обработки решим, что именно возвращать: заголовок, сцену, акт или всю пьесу. Этот подход имеет тот же недостаток, что и предыдущий: релевантность листового элемента часто слабо связана с релевантностью элементов, которым он принадлежит.

tel-icq