Тематическая модель векторного пространства
-
Тематическая модель векторного пространства (TVSM)
- TVSM расширяет векторную модель поиска информации, устраняя ограничения на ортогональность векторов-терминов.
- Ортогональность терминов в естественных языках не соблюдается, что вызывает проблемы с синонимами и связанными терминами.
- TVSM упрощает использование стоп-слов, стемминга и тезауруса.
- TVSM не зависит от сходства терминов, основанного на совпадении, в отличие от модели обобщенного векторного пространства.
-
Определения
- TVSM основана на предположении о существовании d-мерного пространства R с положительными пересечениями осей.
- Каждое измерение R представляет собой фундаментальную тему, а вектор термов t имеет вес для определенного R.
- Весовые коэффициенты рассчитываются с учетом содержания документа, где важные термины имеют высокий вес, а стоп-слова и не относящиеся к теме термины — низкий.
- Модель документа TVSM представляет собой сумму векторов терминов, присутствующих в документе.
- Сходство между двумя документами определяется как скалярное произведение векторов документов.
-
Усовершенствованная тематическая модель векторного пространства (eTVSM)
- eTVSM предлагает способ вывода векторов терминов из онтологии, что приводит к улучшению результатов по сходству документов.
- Использование онтологии синонимов из WordNet Kuropka дает хорошие результаты.
- При использовании тривиальной онтологии результаты аналогичны модели векторного пространства.
-
Реализации
- eTVSM реализована на Python.
-
Рекомендации
- В статье не указаны конкретные рекомендации по использованию TVSM или eTVSM.