Шиншилла (языковая модель)
- Chinchilla — семейство больших языковых моделей, разработанных DeepMind.
- Оно названо «шиншилла» и является дальнейшим развитием предыдущего семейства моделей под названием Gopher.
- Оба семейства моделей были обучены для исследования законов масштабирования больших языковых моделей.
- Chinchilla превосходит GPT-3 по своим характеристикам и требует меньше вычислительной мощности для вывода и точной настройки.
- На основе обучения ранее использованным языковым моделям было определено, что если удвоить размер модели, то необходимо также иметь в два раза больше обучающих токенов.
- Chinchilla имеет 70 миллиардов параметров и в четыре раза больше данных.
- Средний показатель точности Chinchilla по тесту Massive Multitask Language Understanding (MMLU) составляет 67,5%, что на 7% выше, чем у Gopher.
- Chinchilla вносит свой вклад в разработку эффективной парадигмы обучения для больших авторегрессионных языковых моделей с ограниченными вычислительными ресурсами.
Полный текст статьи: