Оглавление
Поиск в формате XML
-
Основы XML-поиска
- XML-поиск использует XML для поиска документов по содержанию.
- Поиск основан на методах из области информационного поиска (IR).
- Запросы могут содержать структурные подсказки, известные как запросы “содержание и структура” (CAS).
-
Использование XML-структуры
- Самоописывающаяся структура XML-документов улучшает поиск.
- CAS запросы позволяют указывать структуру запрашиваемого контента.
- Взвешивание элементов и целенаправленный поиск вложенных документов могут улучшить поиск.
-
Ранжирование в XML-поиске
- Ранжирование учитывает релевантность контента и структурное сходство.
- Поисковые единицы могут быть не целыми документами, а глубоко вложенными элементами.
- Цель – найти самую маленькую актуальную поисковую единицу.
-
Релевантность и специфика
- Релевантность определяется специфичностью, которая фокусируется на теме запроса.
-
Существующие поисковые системы в формате XML
- INEX – платформа для оценки алгоритмов XML-поиска, основанная в 2002 году.
- XML-поиск зависит от традиционных языков запросов XML, баз данных XML и классических моделей поиска информации.
-
Расширение моделей поиска
- Подходы, расширяющие модели векторного пространства, используют структуру документа для ранжирования.
- XDMA – метод поиска по ключевым словам для баз данных XML, основанный на двойной индексации и взаимном суммировании.