Термин «дискриминация»
-
Основы распознавания ключевых слов
- Распознавание ключевых слов используется для ранжирования их по полезности для поиска информации.
- Метод аналогичен tf-idf, но фокусируется на поиске ключевых слов, подходящих и неподходящих для поиска.
- Используется концепция плотности векторного пространства для оценки качества запросов.
-
Определение оптимального и неоптимального индексного термина
- Оптимальный индексный термин позволяет различать разные документы и связывать похожие.
- Неоптимальный индексный термин не обеспечивает четкого различия между документами.
-
Расчет значения распознавания ключевого слова
- Для расчета значения распознавания ключевого слова используется матрица совпадений и среднее евклидово расстояние между векторами документов.
- Чем выше значение распознавания, тем лучше ключевое слово для поиска информации.
-
Качественные наблюдения и рекомендации
- Редкие ключевые слова могут быть плохими различителями из-за плохой запоминаемости.
- Часто встречающиеся ключевые слова могут быть плохими различителями из-за низкой точности.
- Статья G. Солтона, А. Вонга и К. S. Янга (1975) является источником, где впервые была представлена модель векторного пространства.
- Кан и Озкарахан (1987) предложили метод вычисления значений различения на основе коэффициента покрытия.