Оглавление
- 1 Матрица терминов документа
- 1.1 Основы матрицы терминов документа
- 1.2 Применение в обработке естественного языка и компьютерном анализе текста
- 1.3 Представление терминов в матрице
- 1.4 История создания концепции
- 1.5 Выбор терминов и их значимость
- 1.6 Приложения матрицы терминов документа
- 1.7 Реализации и рекомендации
- 1.8 Полный текст статьи:
- 2 Матрица терминов документа — Википедия
Матрица терминов документа
-
Основы матрицы терминов документа
- Матрица терминов документа описывает частоту встречаемости терминов в документах.
- Строки матрицы соответствуют документам, столбцы – терминам.
- Матрица является примером матрицы элементов документа, где элементы могут быть другими свойствами документа.
-
Применение в обработке естественного языка и компьютерном анализе текста
- Матрицы терминов полезны для обработки естественного языка и компьютерного анализа текста.
- Существуют различные схемы взвешивания исходных значений, например, нормализация строк и tf-idf.
-
Представление терминов в матрице
- Термины обычно представляют собой отдельные слова с пробелами или знаками препинания.
- Матрица терминов документа включает все термины в корпусе, поэтому в ней нет нулевых значений.
-
История создания концепции
- Терминологическая матрица документа возникла в начале компьютеризации текста.
- Гарольд Борко опубликовал первую опубликованную матрицу терминов документа в 1962 году.
- Джерард Солтон представил визуальное описание матрицы терминов документа в 1963 году.
- Ф.У. Ланкастер опубликовал обзор автоматизированной индексации и поиска данных в 1964 году.
-
Выбор терминов и их значимость
- Каждая строка матрицы представляет собой документ, а вектор семантической модели используется для представления темы документа.
- В индоевропейских языках предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями.
-
Приложения матрицы терминов документа
- Улучшение результатов поиска за счет устранения неоднозначности и поиска синонимов запроса.
- Выявление тем корпуса с помощью многомерного анализа матрицы терминов документа.
-
Реализации и рекомендации
- Gensim – Python-фреймворк для моделирования векторного пространства с экономичными алгоритмами построения матриц терминов-документов.