ЦВЕТЕНИЕ (языковая модель)
- Многоязычная языковая модель BigScience Large Open-science (BLOOM) основана на преобразовании 176 миллиардов параметров.
- Модель и база кода распространяются по бесплатным лицензиям.
- BLOOM прошел обучение на примерно 366 миллиардах токенов с марта по июль 2022 года.
- BLOOM является главным результатом совместной инициативы BigScience, годичного исследовательского семинара.
- Проект BigScience возглавлялся компанией HuggingFace и включал участие сотен исследователей и инженеров.
- Компания BigScience получила поддержку от государственного гранта на вычисление французского суперкомпьютера Jean Zay.
- Учебный корпус BLOOM, ROOTS, объединяет данные из веб-версии OSCAR corpus и вручную отобранные источники языковых данных.
- ROOTS охватывает 46 естественных языков и 13 языков программирования.
Полный текст статьи: