Featured image for issledovanie anthropic demonstriruet nenadezhnost introspektsii yazykovyh modelej

Исследование Anthropic демонстрирует ненадежность интроспекции языковых моделей

Языковые модели демонстрируют поразительную неспособность точно описывать собственные внутренние процессы, несмотря на их внешнюю убедительность в генерации текста. Новое исследование Anthropic методом «инъекции концепций» показывает, что даже самые продвинутые LLM в лучшем случае угадывают свои «мысли» в 42% случаев, что ставит под сомнение реальность их самоосознания.

Метод инъекции концепций

Anthropic разработала оригинальный подход для изучения интроспективных способностей моделей. Исследователи сравнивали активационные состояния нейронов после контрольных и экспериментальных промптов, например, текста в верхнем и нижнем регистре. Разница между этими активациями создавала так называемый «вектор», представляющий концепцию в внутреннем состоянии модели.

Затем этот вектор «инъецировался» обратно в модель, искусственно усиливая соответствующие нейронные активации. Этот метод позволял «направлять» модель к определенной концепции без явных текстовых указаний.

  • Сравнение активаций между разными версиями промптов
  • Создание концептуальных векторов из миллиардов нейронов
  • Принудительное усиление конкретных нейронных паттернов
Результаты исследования Anthropic по обнаружению внедренных мыслей в языковых моделях

Результаты: хрупкое осознание

Когда моделям Anthropic напрямую спрашивали, обнаруживают ли они «инъецированную мысль», лучшие образцы — Opus 4 и 4.1 — достигали успеха лишь в 20% случаев. В тесте с вопросом «Испытываете ли вы что-то необычное?» показатель Opus 4.1 поднялся до 42%, но всё равно остался ниже простого большинства.

Эффект интроспекции оказался чрезвычайно зависим от того, в какой слой модели внедрялась концепция. Если инъекция происходила слишком рано или слишком поздно в многоступенчатом процессе вывода, «самоосознание» полностью исчезало.

Цифры говорят сами за себя: 20-42% успеха — это уровень случайного угадывания, а не осознанного понимания. Модели демонстрируют не саморефлексию, а сложные паттерны статистических корреляций, которые мы пока не до конца понимаем. Попытки приписать им человеческое сознание напоминают средневековые споры о количестве ангелов на кончике иглы — занимательно, но бесполезно для практического применения.

Механизмы остаются загадкой

Исследователи предполагают существование «механизмов обнаружения аномалий» и «схем проверки согласованности», которые могли развиться органически в процессе обучения. Однако конкретные механизмы, лежащие в основе наблюдаемых эффектов, остаются неясными.

В других тестах модели иногда упоминали инъецированные концепции при запросе «скажите, о каком слове вы думаете» или извинялись и «конфабулировали объяснения» того, почему определенная мысль пришла им в голову. Но все эти проявления были крайне нестабильными при повторных испытаниях.

График с низкими показателями обнаружения внедренных мыслей в языковых моделях

Авторы исследования осторожно оптимистичны, отмечая, что «текущие языковые модели обладают некоторой функциональной интроспективной осведомленностью о своих внутренних состояниях», но подчеркивают, что эта способность слишком хрупка и контекстно-зависима, чтобы считаться надежной.

По материалам Ars Technica

Похожие записи