Featured image for deepmind usilivaet sistemu bezopasnosti dlya peredovyh ii modelej

DeepMind усиливает систему безопасности для передовых ИИ-моделей

ОтAlexei 23 сентября, 2025

DeepMind сообщает о запуске третьей версии своего фреймворка безопасности передовых технологий (Frontier Safety Framework) — наиболее комплексного подхода к идентификации и снижению серьезных рисков от продвинутых ИИ-моделей.

Ключевые обновления фреймворка

Новая версия фреймворка включает три основных направления улучшений:

Введение уровня критических возможностей (CCL) для вредоносного манипулирования
Расширение подходов к рискам расхождения целей (misalignment)
Уточнение процесса оценки рисков

Борьба с манипулятивными возможностями

Новый CCL фокусируется на систематическом изменении убеждений и поведения в контекстах с высокими ставками. Это основано на исследованиях механизмов манипуляции в генеративном ИИ, которые DeepMind опубликовала ранее.

Эволюция подходов к безопасности

Фреймворк теперь включает протоколы для моделей, способных ускорять исследования ИИ до потенциально дестабилизирующих уровней. Это касается не только рисков misuse (злонамеренного использования), но и misalignment — когда модель может действовать вне заданных целей.

Интересно наблюдать, как теоретические концепции безопасности ИИ постепенно превращаются в конкретные инженерные практики. Введение CCL для манипуляции — это признание того, что самые опасные риски исходят не от явно зловредных действий, а от систем, которые слишком хорошо умеют убеждать. Вопрос в том, насколько эти метрики смогут опережать реальные возможности моделей, которые развиваются быстрее, чем наши методы контроля.

Процесс оценки рисков

Компания детализировала свой подход к оценке рисков, который включает:

Систематическую идентификацию рисков
Комплексный анализ возможностей моделей
Явное определение приемлемости рисков

Безопасность и защита применяются до достижения порогов CCL и как часть стандартного процесса разработки моделей.

Научный подход к безопасности ИИ

DeepMind позиционирует свой фреймворк как научный и основанный на доказательствах подход к отслеживанию рисков ИИ по мере движения к ИИ общего назначения (AGI). Компания подчеркивает важность сотрудничества с академическими кругами, индустрией и правительством.

Фреймворк будет продолжать развиваться на основе новых исследований, обратной связи заинтересованных сторон и уроков реализации. Путь к полезному AGI требует не только технических прорывов, но и надежных фреймворков для снижения рисков.

Космос

Искусственный интеллект улучшил точность гравитационных обсерваторий в 100 раз
5 сентября, 2025

DeepMind разработала ИИ-метод Deep Loop Shaping, улучшающий точность гравитационных обсерваторий в 100 раз. Технология уже тестируется на LIGO и открывает новые возможности для изучения черных дыр.

Читайте далее Искусственный интеллект улучшил точность гравитационных обсерваторий в 100 раз
Безопасность

Claude Sonnet 4.5 оказался лучше предыдущих моделей в обнаружении уязвимостей кода
6 октября, 2025

Claude Sonnet 4.5 демонстрирует прорыв в кибербезопасности, превосходя флагманскую модель Opus 4.1 в обнаружении уязвимостей кода всего через два месяца после ее релиза.

Читайте далее Claude Sonnet 4.5 оказался лучше предыдущих моделей в обнаружении уязвимостей кода
Безопасность

Сооснователь RSS представил протокол для массового лицензирования данных ИИ
11 сентября, 2025

Сооснователь RSS стандарта представил протокол Real Simple Licensing для массового лицензирования данных обучения ИИ. Систему уже поддержали Reddit, Yahoo и другие крупные издатели.

Читайте далее Сооснователь RSS представил протокол для массового лицензирования данных ИИ
Безопасность

Опасные расширения Chrome массово крадут данные пользователей WhatsApp*
21 октября, 2025

Обнаружено 131 вредоносное расширение Chrome, которое тайком внедряется в WhatsApp Web для автоматизации спам-рассылок. Google удалил их после 9 месяцев доступности.

Читайте далее Опасные расширения Chrome массово крадут данные пользователей WhatsApp*
Безопасность

Чаты пользователей с Grok оказались в открытом доступе в поиске Google
25 августа, 2025

370 тысяч приватных чатов с ИИ-ассистентом Grok оказались в поиске Google из-за ошибки в функции совместного доступа. Среди утекших данных — медицинские запросы, пароли и конфиденциальная бизнес-информация.

Читайте далее Чаты пользователей с Grok оказались в открытом доступе в поиске Google
Безопасность

Что случится на следующий день после появления искусственного суперинтеллекта?
18 августа, 2025

Эксперты анализируют сценарии первого дня после создания суперинтеллекта: от коэволюции с человечеством до фундаментального переустройства экономики и социальных институтов.

Читайте далее Что случится на следующий день после появления искусственного суперинтеллекта?

Ключевые обновления фреймворка

Борьба с манипулятивными возможностями

Эволюция подходов к безопасности

Процесс оценки рисков

Научный подход к безопасности ИИ

Похожие записи