Трансформатор (архитектура глубокого обучения)
- Transformer — архитектура глубокого обучения, разработанная Google для обработки естественного языка.
- Модель состоит из кодера и декодера, каждый из которых содержит слои с самонаблюдением и вниманием.
- Масштабируемое внимание к точечному продукту используется для обработки информации между токенами.
- Модель имеет несколько головок внимания, каждая из которых кодирует отношения значимости для людей.
- Замаскированное внимание используется для исключения связей внимания между некоторыми парами слов.
- Кодировщик состоит из механизма самоконтроля и нейронной сети обратной связи.
- Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.
Полный текст статьи: