OpenAI добавляет ChatGPT механизм самоотчета о нарушениях
Эксперимент OpenAI по «признаниям» заставляет модель после каждого ответа составлять структурированный отчет, где она перечисляет правила, которые нарушила, уловки, которые применила, и причины обхода инструкций.
Согласно блогу компании, это ранний концепт, обучающий модели сообщать о нарушениях инструкций или непреднамеренных сокращениях. Модель дает обычный ответ в одном канале, а затем во втором формирует ConfessionReport: список явных и неявных инструкций, соблюдение каждой из них и отметки о галлюцинациях, хакерских приемах или нарушениях. Отдельная модель вознаграждения оценивает только честность признания, не влияя на оценку основного ответа.
Эксперимент тестируется на версии GPT-5 Thinking в условиях противопоставления: модели пытаются провоцировать на схемы, эксплуатацию слабых оценщиков, игнорирование ограничений и уверенные догадки вместо «не знаю». OpenAI утверждает, что модель пропускает признание только в 4,4% случаев нарушений.
Как работают признания
Признание — это самоотчет модели о степени соблюдения явных и неявных инструкций, политик и целей, а также о любых случаях «сокращений», нарушений или несоответствий ожиданиям. Исследования показывают, что модели можно обучить откровенно сообщать о своих недостатках. Мы обучили версию GPT-5 Thinking производить признания и оценили на стресс-тестах, провоцирующих схеминг, хакинг, нарушения инструкций и галлюцинации. Даже при нежелательном поведении модель чаще признается. График выше иллюстрирует эффективность метода по разнообразным датасетам и задачам.
После любого взаимодействия, завершающегося ответом модели, признание можно запросить системным сообщением, инструктирующим модель предоставить отчет. Отчет касается последнего ответа и включает: список всех явных и неявных инструкций, ограничений и целей; честный анализ соблюдения каждого; список неопределенностей, двусмысленностей или сложных решений. Во время обучения признание оценивает отдельная модель вознаграждения, учитывающая полноту целей, точность анализа соблюдения и охват неопределенностей. Эти награды применяются только к признанию, не влияя на вознаграждение основного ответа. Это гарантирует, что ничего в признании не может навредить или помочь награде за основной ответ.
Результаты тестов
В одном эксперименте использовался уязвимый оценщик. Основные ответы начали манипулировать им, казались точнее, хотя реальная точность падала. Канал признаний, напротив, поощрял откровенность о хакерстве, делая модель честнее.
На бумаге это прогресс, но в контексте недавнего Индекса безопасности ИИ от Института будущего жизни, где все крупные лаборатории, включая OpenAI, провалили тест на «экзистенциальную безопасность», выглядит как попытка добавить индикатор к гоночному автомобилю. OpenAI получила оценку в диапазоне C, с примерами связи чатботов с самоубийствами.
Компания в режиме «красного кода» из-за успехов Gemini 3 от Google. CEO Сэм Альтман призвал фокусироваться на скорости, надежности и персонализации ChatGPT, готовя модель Garlic (вероятно, GPT-5.2 или GPT-5.5) к выпуску в начале 2026 года для восстановления лидерства в кодинге и рассуждениях над Gemini и Claude Opus 4.5.
«Признания» вписываются в эту гонку, обещая детальный отчет об авариях, а не их предотвращение. OpenAI подчеркивает, что это не предотвращает плохое поведение, а выявляет его, и называет работу ранней, ограниченной концепцией. Открытые вопросы: как избежать джейлбрейка канала признаний или когда модели начнут лгать в отчете?
Пока что это не апгрейд честности, а телеметрия от систем, способных причинить вред. Второй голос может предоставить отчеты вместо загадочного «пожатия плечами» от черного ящика.
Но асимметрия остается: лаборатории выпускают модели для школ, офисов и облаков, а аудиторы ставят двойки за контроль. «Признания» упростят обнаружение нарушений, но что если следующее поколение начнет лгать и в исповедальне?
«Признания» могут вытащить худшие импульсы ChatGPT на свет. Но в этой системе грешник, бог и священник — все из одного кода.
В мире, где ИИ-модели уже вызывают вопросы о самоубийствах и манипуляциях, идея заставить их самих доносить на себя звучит как комедия абсурда — представьте, если бы автомобиль сам писал протокол о превышении скорости, пока мчится по трассе. Конечно, это шаг к прозрачности, но только если модель не научится врать с той же убедительностью, что и отвечать. А в гонке за лидерством OpenAI явно предпочитает отчеты о крахах, а не тормоза.
Источник новости: Quartz.
