Featured image for ii sudi ne mogut byt bespristrastnymi potomu chto chasto ignoriruyut novyj kontekst

ИИ-судьи не могут быть беспристрастными, потому что часто игнорируют новый контекст

Использование больших языковых моделей для оценки безопасности других нейросетей стало индустриальным стандартом, однако свежее исследование ставит под сомнение беспристрастность таких «автоматизированных арбитров». Как сообщает издание Let’s Data Science, препринт научной работы Anissa Alloula и её коллег, опубликованный на arXiv, выявил серьезную инертность в суждениях LLM-судей.

Исследователи задались вопросом, насколько легко переубедить алгоритм, если предоставить ему новые вводные или изменить само определение безопасности в промпте. В ходе экспериментов тестировались как универсальные модели, так и специализированные решения для модерации контента. Оказалось, что когда новый контекст вступает в противоречие с внутренними «убеждениями» (priors), заложенными при обучении, нейросеть склонна игнорировать факты в пользу своих предубеждений.

Проблема кроется в самой природе In-Context Learning (обучения в контексте). Хотя современные модели прекрасно справляются с демонстрационными примерами, их способность гибко менять критерии оценки ограничена. Если модель «считает» определенный тип запроса опасным на основе весов в своих параметрах, никакие уточнения в инструкции не заставят её вынести оправдательный вердикт.

Методология и выявленные аномалии

Для проверки гибкости судей авторы использовали вариативные сценарии: от классических демонстраций задач до введения абсолютно новой информации, которая должна была скорректировать итоговый балл. Результаты показали, что модели успешно усваивают новые данные, пока те не противоречат их базовой логике. Однако при возникновении конфликта между «знаниями» модели и инструкцией, победу почти всегда одерживают внутренние установки.

Перекладывание ответственности за безопасность на плечи LLM-судей выглядит как попытка лечить системную болезнь обезболивающим. Мы получаем масштабируемость, но теряем точность в пограничных случаях, где модель просто «замыкается» на своих обучающих данных. Без ансамблей из разных моделей и периодического участия человека такие системы превращаются в эхо-комнату собственных предубеждений разработчиков, что делает их непригодными для тонкой настройки комплаенса.

Для сообщества разработчиков и специалистов по AI Safety это тревожный сигнал. Если судья не способен адаптироваться к изменяющимся правилам игры, эффективность red-teaming (тестирования на проникновение) падает. Мы рискуем получить отчеты о безопасности, которые выглядят стабильно и солидно, но на деле лишь отражают ригидность используемого инструмента оценки, а не реальное положение дел.

В ближайшее время стоит ожидать появления новых протоколов стресс-тестирования самих судей. Наблюдателям рекомендуется следить за тем, насколько сильно разнятся оценки разных моделей при смене формулировок безопасности. Скорее всего, индустрия придет к необходимости использования кросс-валидации, где одну и ту же выборку проверяют несколько независимых LLM с последующим анализом расхождений в их «показаниях».

Похожие записи