Окапи BM25
-
Основы ранжирования Okapi BM25
- Okapi BM25 — это функция ранжирования, используемая поисковыми системами для оценки релевантности документов.
- BM25 основан на системе вероятностного поиска, разработанной в 1970-х и 1980-х годах.
- BM25 и его варианты, такие как BM25F, представляют собой функции поиска, похожие на TF-IDF.
-
Функция ранжирования BM25
- BM25 ранжирует документы на основе терминов запроса, независимо от их близости в документе.
- Оценка BM25 документа равна сумме количества раз использования ключевого слова в документе и его длины, деленной на среднюю длину документа в коллекции.
- Параметры k1 и b обычно выбираются в отсутствие оптимизации, с диапазонами значений k1 от 1.2 до 2.0 и b от 0.75 до 0.85.
-
Интерпретация IDF
- IDF (обратная частота использования документа) является ключевым компонентом BM25.
- IDF вычисляется как отношение количества документов, содержащих термин запроса, к общему количеству документов в коллекции.
- Существует несколько интерпретаций IDF, включая теоретико-информационную интерпретацию.
-
Модификации BM25
- При экстремальных значениях параметра b BM25 превращается в функции ранжирования BM11 и BM15.
- BM25F учитывает несколько полей документа с разной степенью важности и нормализацией длины.
- BM25+ устраняет недостаток BM25, связанный с отсутствием нижнего ограничения для нормализации частоты использования термина по длине документа.
-
Рекомендации
- В статье приведены общие рекомендации и ссылки на внешние ресурсы.