Оглавление
Явный семантический анализ
-
Основы ESA
- ESA – это метод векторного представления текста, основанный на корпусе документов.
- Слово в ESA представлено вектором, а документ – центроидом векторов слов.
- Обычно используется корпус английской Википедии, но также использовались другие корпуса.
-
Разработка и применение ESA
- ESA был разработан Габриловичем и Марковичем для улучшения категоризации текста.
- Используется для вычисления семантической связанности между словами через косинусное сходство.
-
Модель ESA
- Для выполнения ESA требуется коллекция текстов, например, статей Википедии.
- Тексты преобразуются в гистограммы частотности терминов и хранятся в инвертированном индексе.
- Инвертированный индекс позволяет находить документы, содержащие слово, и присваивать им оценки.
-
Анализ и приложения ESA
- ESA работает с тематически ортогональными понятиями, но может быть улучшен при использовании неортогональных источников.
- ESA превосходит другие алгоритмы в задачах определения родства слов и сопоставления документов.
-
Расширения ESA
- CL-ESA – это многоязычное обобщение ESA, использующее многоязычные справочные базы для представления документов.
-
Рекомендации и внешние ссылки
- Статья содержит ссылки на домашнюю страницу Габриловича и другие ресурсы.