Матрица терминов документа

Матрица терминов документа Основы матрицы терминов документа Матрица терминов документа описывает частоту встречаемости терминов в документах.  Строки матрицы соответствуют документам, […]

Матрица терминов документа

  • Основы матрицы терминов документа

    • Матрица терминов документа описывает частоту встречаемости терминов в документах. 
    • Строки матрицы соответствуют документам, столбцы — терминам. 
    • Матрица является примером матрицы элементов документа, где элементы могут быть другими свойствами документа. 
  • Применение в обработке естественного языка и компьютерном анализе текста

    • Матрицы терминов полезны для обработки естественного языка и компьютерного анализа текста. 
    • Существуют различные схемы взвешивания исходных значений, например, нормализация строк и tf-idf. 
  • Представление терминов в матрице

    • Термины обычно представляют собой отдельные слова с пробелами или знаками препинания. 
    • Матрица терминов документа включает все термины в корпусе, поэтому в ней нет нулевых значений. 
  • История создания концепции

    • Терминологическая матрица документа возникла в начале компьютеризации текста. 
    • Гарольд Борко опубликовал первую опубликованную матрицу терминов документа в 1962 году. 
    • Джерард Солтон представил визуальное описание матрицы терминов документа в 1963 году. 
    • Ф.У. Ланкастер опубликовал обзор автоматизированной индексации и поиска данных в 1964 году. 
  • Выбор терминов и их значимость

    • Каждая строка матрицы представляет собой документ, а вектор семантической модели используется для представления темы документа. 
    • В индоевропейских языках предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями. 
  • Приложения матрицы терминов документа

    • Улучшение результатов поиска за счет устранения неоднозначности и поиска синонимов запроса. 
    • Выявление тем корпуса с помощью многомерного анализа матрицы терминов документа. 
  • Реализации и рекомендации

    • Gensim — Python-фреймворк для моделирования векторного пространства с экономичными алгоритмами построения матриц терминов-документов. 

Полный текст статьи:

Матрица терминов документа — Википедия

Оставьте комментарий

Прокрутить вверх