GPT-J
- GPT-J – генеративная предварительно обученная модель-трансформер от компании EleutherAI, разработанная в 2021 году.
- Модель имеет 6 миллиардов параметров и предназначена для создания человекоподобного текста.
- GPT-J имеет архитектуру, отличную от GPT-3, с параллельным обучением нейронной сети и использованием поворотных позиционных вставок.
- Модель использует плотное внимание вместо эффективного разреженного, как в GPT-3.
- GPT-J имеет 28 уровней-трансформеров и 16 головок для фиксации внимания, а его словарный запас составляет 50257 лексем.
- Модель была обучена на наборе данных Pile и использует библиотеку Mesh Transformer JAX для работы со схемой распараллеливания.
- GPT-J разработан для генерации текста на английском языке, но не предназначен для перевода или генерации текста на других языках.
- Не настроенный GPT-J доступен на различных веб-сайтах и сервисах, которые предлагают услуги по точной настройке модели для решения конкретных задач.
Полный текст статьи: