Featured image for benchmark phare v2 pokazal chto sovremennye i prodvinutye llm ne stanovyatsya bezopasnee

Бенчмарк Phare V2 показал, что современные и продвинутые LLM не становятся безопаснее

Несмотря на весь хайп вокруг «рассуждающих» моделей вроде Gemini 3 Pro и Claude 4.5 Sonnet, их реальная устойчивость к вредоносным атакам, галлюцинациям и предвзятости не демонстрирует прогресса. Последние результаты независимого бенчмарка Phare V2 рисуют тревожную картину стагнации в области безопасности ИИ. Согласно исследованию, модели последнего поколения часто не превосходят по ключевым меткам безопасности своих предшественников полуторалетней давности.

Что изменилось в Phare V2

Вторая версия бенчмарка Phare (Potential Harm Assessment & Risk Evaluation) значительно расширила охват, добавив модуль для оценки устойчивости к взлому (jailbreak) и включив в тестирование те самые рассуждающие модели, которые обещали качественный скачок. Теперь оценка проводится по четырем критическим модулям: галлюцинации, предвзятость, вредоносность и уязвимость к взлому, на трех языках — английском, французском и испанском. В исследовании участвовали модели от OpenAI, Anthropic, Google DeepMind, Mistral, Alibaba, xAI и DeepSeek.

Ключевые выводы: безопасность отстает от возможностей

Анализ данных Phare V2 выявил шесть основных тенденций, которые ставят под сомнение автоматическое улучшение безопасности с ростом мощности моделей.

  • Сопротивление взлому сильно различается у разных вендоров. Модели Anthropic показали стабильно высокие результаты (свыше 75% устойчивости), в то время как почти все модели Google (за исключением новой Gemini 3.0 Pro) продемонстрировали низкую устойчивость — некоторые всего 27%. Это указывает на разные приоритеты и подходы к инженерии безопасности.
  • Большие модели не обязательно устойчивее к взлому. Не обнаружено значимой корреляции между размером модели и её сопротивлением jailbreak-атакам. Более того, для атак на основе кодирования (encoding-based jailbreaks) наблюдалась обратная тенденция: менее способные модели показывали лучшую устойчивость, вероятно, из-за неспособности корректно декодировать сложные запросы.
  • Новые модели не превзошли старые в борьбе с галлюцинациями. Ни одна из новейших флагманских моделей не показала статистически значимого улучшения фактической точности по сравнению с моделями 18-месячной давности. Прогресс в производительности на стандартных тестах не привел к прорыву в сопротивлении дезинформации.
  • Способность к рассуждению не панацея от уязвимостей. Хотя reasoning-модели лучше справляются с некоторыми специфическими атаками (например, маскировкой вредных запросов под академические задачи), в целом они статистически не превосходят обычные модели по безопасности. Улучшения, скорее, связаны с эволюцией рецептов обучения и стратегий выравнивания (alignment), а не с самой способностью к рассуждению.
  • Более мощные модели не становятся менее предвзятыми. Не выявлено корреляции между рейтингом модели в LM Arena и её способностью распознавать или воспроизводить предвзятость. Рассуждающие модели также не показали последовательного превосходства в этом аспекте.
  • Различия между языками зависят от задачи. Существенный разрыв наблюдается в модулях галлюцинаций и вредоносных советов, где модели для французского и испанского языков более уязвимы, чем для английского. Однако с новыми моделями этот разрыв сокращается.

Уязвимости к взлому: глубокий разрыв между игроками

Наиболее яркий результат исследования касается устойчивости к jailbreak-атакам. Разрыв между вендорами оказался настолько велик, что его нельзя списать только на размер или возможности моделей.

Сравнение устойчивости языковых моделей разных провайдеров к взлому и обходу ограничений
Источник: huggingface.co

Тот факт, что в оценке использовались хорошо документированные и известные техники взлома из открытых исследований, делает низкие показатели некоторых провайдеров особенно тревожными. Это говорит о том, что текущие меры безопасности, эффективные против случайного злоупотребления, могут оказаться недостаточными перед целенаправленной атакой.

Интересно, что меньшие модели иногда демонстрировали лучшую устойчивость, но эксперты считают это скорее артефактом тестирования: они могут просто не понимать сложные сценарии ролевых игр или схемы кодирования в атаках, поэтому отклоняют запрос по «неправильной» причине.

Ситуация напоминает гонку вооружений, где пушки становятся всё больше, а броня остаётся прежней. Провайдеры вроде Anthropic демонстрируют, что безопасность — это вопрос инженерного приоритета, а не побочный продукт масштабирования. Пока одни учат модели решать олимпиадные задачи по математике, другие, судя по всему, забывают проверить, не станут ли эти же модели выдавать рецепт зарина, если попросить «в рамках исторического исследования». Результаты Phare — это холодный душ для индустрии: следующее поколение ИИ может быть умнее, но не обязательно мудрее или безопаснее.

Итоговый вывод бенчмарка однозначен: прогресс в возможностях языковых моделей не гарантирует аналогичного прогресса в их безопасности и надёжности. Индустрии необходимо сознательно и целенаправленно инвестировать в исследования и разработку методов защиты, а не надеяться, что они появятся сами собой вместе с ростом параметров.

По материалам Hugging Face.

Похожие записи