Модель «Мешок слов»
-
Основы модели набора слов
- Модель текста, основанная на неупорядоченной коллекции слов
- Используется в обработке естественного языка и IR
- Игнорирует порядок слов, но отражает множественность
-
Применение модели
- Используется в методах классификации документов
- Частота встречаемости слов используется как признак для обучения классификатора
-
История и примеры
- Первое упоминание в статье Зеллига Харриса 1954 года
- Пример реализации с использованием JSON и JavaScript
- Объединение документов в представлении пакетов слов является формальным непересекающимся объединением
-
Реализации и модификации
- Частоты слов могут быть нормализованы или использованы с tf-idf
- Существуют контролируемые альтернативы для классификации документов
- В некоторых задачах вместо частот используется двоичное взвешивание
-
Альтернативные реализации
- Метод хеширования для упрощения реализации и повышения масштабируемости
-
Дополнительные темы
- Аддитивное сглаживание, извлечение признаков, машинное обучение, минхаш, векторная пространственная модель, w-черепица
-
Рекомендации
- Ссылка на книгу Мактира и др. «Диалоговый интерфейс»