Трансформатор (архитектура глубокого обучения)

Transformer – архитектура глубокого обучения, разработанная Google для обработки естественного языка.
Модель состоит из кодера и декодера, каждый из которых содержит слои с самонаблюдением и вниманием.
Масштабируемое внимание к точечному продукту используется для обработки информации между токенами.
Модель имеет несколько головок внимания, каждая из которых кодирует отношения значимости для людей.
Замаскированное внимание используется для исключения связей внимания между некоторыми парами слов.
Кодировщик состоит из механизма самоконтроля и нейронной сети обратной связи.
Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.

Полный текст статьи:

Трансформер (архитектура глубокого обучения) — Википедия