Лама (языковая модель)

Meta представила новую модель языкового предсказания LLaMA, основанную на архитектуре transformer.
LLaMA использует функцию активации SwiGLU, поворотные позиционные встраивания и среднеквадратичную нормализацию уровня.
Модель сосредоточена на масштабировании производительности за счет увеличения объема обучающих данных.
LLaMA 1 обучена на наборе данных с 1,4 трлн токенов, полученных из общедоступных источников.
Llama 2 и Llama 2 – Chat были дополнительно доработаны на основе 27 540 пар быстрого ответа.
При контролируемой тонкой настройке использовалась функция авторегрессии потерь.
Модель LLaMA доступна только в качестве базовых моделей с самостоятельным обучением и без тонкой настройки.
Приложения, основанные на LLaMA, включают Alpaca, Meditron и искусственный интеллект-компаньона Zoom.

Полный текст статьи:

Пламя (образцовый язык) — Википедия, бесплатная энциклопедия