Ранжирование (поиск информации)
-
Основы ранжирования запросов
- Ранжирование запросов — ключевая задача в информационном поиске.
- Ранжирование используется в различных приложениях, включая поисковые системы и рекомендательные системы.
- Большинство поисковых систем используют алгоритмы ранжирования для предоставления релевантных результатов.
-
История ранжирования
- PageRank был разработан в 1940-х и 1960-х годах для оценки значимости экономических и научных секторов.
- Чарльз Хаббелл предложил метод определения значимости личностей на основе их поддержки.
- Габриэль Пински и Фрэнсис Нарин разработали подход к ранжированию журналов, основанный на цитируемости.
- Джон Кляйнберг разработал гипертекстовый тематический поиск (ХИТОВ), который рассматривал веб-страницы как авторитетные источники.
- Google PageRank, разработанный в 1998 году, является ключевым алгоритмом Google для ранжирования веб-страниц.
-
Модели ранжирования
- Ранжирование может быть оценено различными способами, включая определение точности первых k результатов.
- Модели IR делятся на логические, векторные пространственные и вероятностные.
- Логические модели не решают проблему частичного совпадения документов.
- Векторные пространственные модели используют векторы индексных элементов с весами, основанными на частоте использования терминов.
- Вероятностные модели используют теорию вероятностей для моделирования процесса поиска и оценки вероятности релевантности документов.
-
Оценка результатов
- Точность, запоминание и F-оценка являются распространенными показателями оценки.
- Для ранжированных результатов поиска требуются новые меры оценки.
-
Алгоритм ранжирования страниц
- PageRank вычисляет распределение вероятностей для представления вероятности перехода по ссылкам.
- Алгоритм требует нескольких проходов по коллекции для корректировки значений PageRank.
-
Алгоритм ПОПАДАНИЯ
- HITS использует анализ ссылок для ранжирования страниц, но работает только с подграфами и зависит от запросов.