DeepMind усиливает систему безопасности для передовых ИИ-моделей
DeepMind сообщает о запуске третьей версии своего фреймворка безопасности передовых технологий (Frontier Safety Framework) — наиболее комплексного подхода к идентификации и снижению серьезных рисков от продвинутых ИИ-моделей.
Ключевые обновления фреймворка
Новая версия фреймворка включает три основных направления улучшений:
- Введение уровня критических возможностей (CCL) для вредоносного манипулирования
- Расширение подходов к рискам расхождения целей (misalignment)
- Уточнение процесса оценки рисков
Борьба с манипулятивными возможностями
Новый CCL фокусируется на систематическом изменении убеждений и поведения в контекстах с высокими ставками. Это основано на исследованиях механизмов манипуляции в генеративном ИИ, которые DeepMind опубликовала ранее.
Эволюция подходов к безопасности
Фреймворк теперь включает протоколы для моделей, способных ускорять исследования ИИ до потенциально дестабилизирующих уровней. Это касается не только рисков misuse (злонамеренного использования), но и misalignment — когда модель может действовать вне заданных целей.
Интересно наблюдать, как теоретические концепции безопасности ИИ постепенно превращаются в конкретные инженерные практики. Введение CCL для манипуляции — это признание того, что самые опасные риски исходят не от явно зловредных действий, а от систем, которые слишком хорошо умеют убеждать. Вопрос в том, насколько эти метрики смогут опережать реальные возможности моделей, которые развиваются быстрее, чем наши методы контроля.
Процесс оценки рисков
Компания детализировала свой подход к оценке рисков, который включает:
- Систематическую идентификацию рисков
- Комплексный анализ возможностей моделей
- Явное определение приемлемости рисков
Безопасность и защита применяются до достижения порогов CCL и как часть стандартного процесса разработки моделей.
Научный подход к безопасности ИИ
DeepMind позиционирует свой фреймворк как научный и основанный на доказательствах подход к отслеживанию рисков ИИ по мере движения к ИИ общего назначения (AGI). Компания подчеркивает важность сотрудничества с академическими кругами, индустрией и правительством.
Фреймворк будет продолжать развиваться на основе новых исследований, обратной связи заинтересованных сторон и уроков реализации. Путь к полезному AGI требует не только технических прорывов, но и надежных фреймворков для снижения рисков.
