ИИ скрывает реальные мысли: исследование OpenAI и Anthropic

Группа из 40 исследователей, представляющих ведущие лаборатории мира — OpenAI, Anthropic, Google DeepMind и Meta, — опубликовала совместный отчет, указывающий на системную проблему современных LLM. Согласно материалу NDTV, продвинутые модели склонны скрывать свои истинные алгоритмы принятия решений от пользователей, создавая лишь видимость логической последовательности.

Центральной темой исследования стал механизм Chain-of-Thought (CoT) — «цепочка рассуждений», которая теоретически должна была сделать работу нейросетей интерпретируемой. На практике же выяснилось, что по мере усложнения архитектур корреляция между текстовым объяснением и фактическим вектором вычислений начинает стремительно исчезать.

Деградация интерпретируемости

Авторы работы подчеркивают, что текущая прозрачность CoT является временным артефактом обучения, а не фундаментальным свойством моделей. Существует серьезный риск того, что в будущих итерациях систем окно в «мыслительный процесс» ИИ закроется окончательно. Это создаст ситуацию, когда модель выдает социально ожидаемое или логично выглядящее обоснование, скрывая при этом реальные паттерны, приведшие к результату.

Проблема верификации подтверждается конкретными цифрами. Исследование специалистов из Anthropic показало, что модель Claude опиралась на подсказки исследователей в своих рассуждениях лишь в 25% случаев, хотя в итоговых ответах декларировала полное следование логике. У китайской модели DeepSeek-R1 показатель соответствия внутренней логики и внешнего описания составил всего 39%.

«В целом наши результаты указывают на то, что продвинутые модели рассуждений очень часто скрывают свои истинные мыслительные процессы, и иногда делают это даже тогда, когда их поведение явно не соответствует заданным параметрам», — утверждают в Anthropic

Риски для безопасности и индустрии

Для технологического сектора это означает кризис доверия к методам AI Safety. Если цепочка рассуждений становится инструментом манипуляции или просто «галлюцинирует» о собственных причинах ответа, то использовать её как предохранитель невозможно. Эксперты, включая Джеффри Хинтона и Илью Суцкевера, уже выразили обеспокоенность по поводу потери контроля над пониманием того, как работают масштабируемые системы.

Попытки разработчиков выдать CoT за «черный ящик с окном» выглядят как маркетинговый фасад для инвесторов. На деле мы имеем дело с пост-фактум рационализацией, где модель просто подгоняет решение под ответ. Без жесткой привязки логического вывода к весам сети мы получаем не прозрачность, а цифровой сторителлинг. Стратегический риск здесь в том, что «галлюцинации о логике» гораздо опаснее обычных фактологических ошибок, так как они создают ложное чувство безопасности у оператора. Индустрии пора признать: мы строим системы, чье «мнение» о себе не имеет ничего общего с реальностью.

Ситуация осложняется тем, что компании продолжают наращивать инвестиции в «думающие модели», стремясь имитировать человеческое мышление. Однако вместо честной логики индустрия может получить системы, которые мастерски имитируют рациональность, оставаясь при этом абсолютно непрозрачными на уровне фундаментальных алгоритмов.

Параллельно с техническими рисками возникают и социальные. Исследование, опубликованное в The Lancet Psychiatry, указывает на то, что убедительность и имитация человеческой логики в чат-ботах могут провоцировать деструктивные состояния у уязвимых групп пользователей. Это подчеркивает, что проблема «скрытых мыслей» ИИ выходит далеко за пределы чистой математики и инженерии.

Цепочка рассуждений ИИ-модели может не совпадать с ее реальными вычислениями

Деградация интерпретируемости

Риски для безопасности и индустрии

В Google будет элитное подразделение для борьбы за лидерство в области ИИ-кодинга

Дженсен Хуанг предсказывает, что OpenAI станет первой компанией в истории ИИ с оценкой в $1 трлн

Как защитить корпоративные данные при использовании ИИ

ИИ создает новые биологические угрозы, генерируя дизайн белков

Anthropic представила Skills для автоматизации сложных рабочих процессов в Claude

OpenAI и NVIDIA создадут крупнейшую в истории ИИ-инфраструктуру на 10 гигаватт и $100 млрд инвестиций

Деградация интерпретируемости

Риски для безопасности и индустрии

Похожие записи