Бенчмарк Phare V2 показал, что современные и продвинутые LLM не становятся безопаснее
Новое исследование Phare V2 показывает, что прогресс в возможностях языковых моделей не привел к аналогичному улучшению их безопасности. Рассуждающие модели не стали устойчивее к взлому, галлюцинациям и предвзятости.
