Внимание (машинное обучение)
- Attention networks используются в машинном обучении для выделения наиболее релевантных элементов в данных.
- Attention networks вычисляют скрытые представления токенов с равным доступом к любой части предложения.
- Attention networks были разработаны для выявления самых высоких корреляций между словами в предложении.
- Attention head включает в себя три подсети, каждая из которых содержит 100 нейронов.
- Attention networks распараллеливают алгоритм расчетов, что является огромным преимуществом перед повторяющимися сетями.
- Блок управления вниманием состоит из 3 обученных, полностью связанных уровней нейронной сети.
- Варианты внимания включают мягкие веса, такие как внутренние источники внимания и другие.
- Математическое представление внимания включает матрицу точечных произведений, аналогичную формуле, приведенной в статье.
Полный текст статьи: