Featured image for deepmind usilivaet sistemu bezopasnosti dlya peredovyh ii modelej

DeepMind усиливает систему безопасности для передовых ИИ-моделей

DeepMind сообщает о запуске третьей версии своего фреймворка безопасности передовых технологий (Frontier Safety Framework) — наиболее комплексного подхода к идентификации и снижению серьезных рисков от продвинутых ИИ-моделей.

Ключевые обновления фреймворка

Новая версия фреймворка включает три основных направления улучшений:

  • Введение уровня критических возможностей (CCL) для вредоносного манипулирования
  • Расширение подходов к рискам расхождения целей (misalignment)
  • Уточнение процесса оценки рисков

Борьба с манипулятивными возможностями

Новый CCL фокусируется на систематическом изменении убеждений и поведения в контекстах с высокими ставками. Это основано на исследованиях механизмов манипуляции в генеративном ИИ, которые DeepMind опубликовала ранее.

Эволюция подходов к безопасности

Фреймворк теперь включает протоколы для моделей, способных ускорять исследования ИИ до потенциально дестабилизирующих уровней. Это касается не только рисков misuse (злонамеренного использования), но и misalignment — когда модель может действовать вне заданных целей.

Интересно наблюдать, как теоретические концепции безопасности ИИ постепенно превращаются в конкретные инженерные практики. Введение CCL для манипуляции — это признание того, что самые опасные риски исходят не от явно зловредных действий, а от систем, которые слишком хорошо умеют убеждать. Вопрос в том, насколько эти метрики смогут опережать реальные возможности моделей, которые развиваются быстрее, чем наши методы контроля.

Процесс оценки рисков

Компания детализировала свой подход к оценке рисков, который включает:

  1. Систематическую идентификацию рисков
  2. Комплексный анализ возможностей моделей
  3. Явное определение приемлемости рисков

Безопасность и защита применяются до достижения порогов CCL и как часть стандартного процесса разработки моделей.

Научный подход к безопасности ИИ

DeepMind позиционирует свой фреймворк как научный и основанный на доказательствах подход к отслеживанию рисков ИИ по мере движения к ИИ общего назначения (AGI). Компания подчеркивает важность сотрудничества с академическими кругами, индустрией и правительством.

Фреймворк будет продолжать развиваться на основе новых исследований, обратной связи заинтересованных сторон и уроков реализации. Путь к полезному AGI требует не только технических прорывов, но и надежных фреймворков для снижения рисков.

Похожие записи