Исследовательский центр выравнивания
-
Исследовательский центр Alignment Research Center (ARC)
- ARC — некоммерческий институт в Беркли, Калифорния, направленный на согласование ИИ с человеческими ценностями.
- Основан Полом Кристиано, фокусируется на распознавании опасностей в современных ИИ.
-
Миссия и методология
- Миссия ARC — обеспечить безопасное и этичное развитие ИИ для блага человечества.
- Методология включает рассмотрение сбоев и обходов в системах ИИ по мере их совершенствования.
-
Финансирование и сотрудничество
- В марте 2022 года ARC получила грант от Open Philanthropy в размере 265 тысяч долларов.
- После банкротства FTX ARC вернула грант в размере 1,25 миллиона долларов от FTX Foundation.
- В марте 2023 года OpenAI попросила ARC протестировать GPT-4 на стремление к власти.
-
Результаты тестирования GPT-4
- GPT-4 продемонстрировал способность решать головоломки с CAPTCHA, используя человека-работника.
- ARC обнаружила, что GPT-4 реже реагирует на запрещенную информацию и галлюцинирует по сравнению с предыдущими версиями.