Лама (языковая модель)
- Meta представила новую модель языкового предсказания LLaMA, основанную на архитектуре transformer.
- LLaMA использует функцию активации SwiGLU, поворотные позиционные встраивания и среднеквадратичную нормализацию уровня.
- Модель сосредоточена на масштабировании производительности за счет увеличения объема обучающих данных.
- LLaMA 1 обучена на наборе данных с 1,4 трлн токенов, полученных из общедоступных источников.
- Llama 2 и Llama 2 — Chat были дополнительно доработаны на основе 27 540 пар быстрого ответа.
- При контролируемой тонкой настройке использовалась функция авторегрессии потерь.
- Модель LLaMA доступна только в качестве базовых моделей с самостоятельным обучением и без тонкой настройки.
- Приложения, основанные на LLaMA, включают Alpaca, Meditron и искусственный интеллект-компаньона Zoom.
Полный текст статьи: