Матрица терминов документа
-
Основы матрицы терминов документа
- Матрица терминов документа описывает частоту встречаемости терминов в документах.
- Строки матрицы соответствуют документам, столбцы — терминам.
- Матрица является примером матрицы элементов документа, где элементы могут быть другими свойствами документа.
-
Применение в обработке естественного языка и компьютерном анализе текста
- Матрицы терминов полезны для обработки естественного языка и компьютерного анализа текста.
- Существуют различные схемы взвешивания исходных значений, например, нормализация строк и tf-idf.
-
Представление терминов в матрице
- Термины обычно представляют собой отдельные слова с пробелами или знаками препинания.
- Матрица терминов документа включает все термины в корпусе, поэтому в ней нет нулевых значений.
-
История создания концепции
- Терминологическая матрица документа возникла в начале компьютеризации текста.
- Гарольд Борко опубликовал первую опубликованную матрицу терминов документа в 1962 году.
- Джерард Солтон представил визуальное описание матрицы терминов документа в 1963 году.
- Ф.У. Ланкастер опубликовал обзор автоматизированной индексации и поиска данных в 1964 году.
-
Выбор терминов и их значимость
- Каждая строка матрицы представляет собой документ, а вектор семантической модели используется для представления темы документа.
- В индоевропейских языках предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями.
-
Приложения матрицы терминов документа
- Улучшение результатов поиска за счет устранения неоднозначности и поиска синонимов запроса.
- Выявление тем корпуса с помощью многомерного анализа матрицы терминов документа.
-
Реализации и рекомендации
- Gensim — Python-фреймворк для моделирования векторного пространства с экономичными алгоритмами построения матриц терминов-документов.