Модель «Мешок слов»

Модель «Мешок слов» Основы модели набора слов Модель текста, основанная на неупорядоченной коллекции слов  Используется в обработке естественного языка и […]

Модель «Мешок слов»

  • Основы модели набора слов

    • Модель текста, основанная на неупорядоченной коллекции слов 
    • Используется в обработке естественного языка и IR 
    • Игнорирует порядок слов, но отражает множественность 
  • Применение модели

    • Используется в методах классификации документов 
    • Частота встречаемости слов используется как признак для обучения классификатора 
  • История и примеры

    • Первое упоминание в статье Зеллига Харриса 1954 года 
    • Пример реализации с использованием JSON и JavaScript 
    • Объединение документов в представлении пакетов слов является формальным непересекающимся объединением 
  • Реализации и модификации

    • Частоты слов могут быть нормализованы или использованы с tf-idf 
    • Существуют контролируемые альтернативы для классификации документов 
    • В некоторых задачах вместо частот используется двоичное взвешивание 
  • Альтернативные реализации

    • Метод хеширования для упрощения реализации и повышения масштабируемости 
  • Дополнительные темы

    • Аддитивное сглаживание, извлечение признаков, машинное обучение, минхаш, векторная пространственная модель, w-черепица 
  • Рекомендации

    • Ссылка на книгу Мактира и др. «Диалоговый интерфейс» 

Полный текст статьи:

Модель «Мешок слов» — Википедия

Оставьте комментарий

Прокрутить вверх