Featured image for spetsializirovannye rl agenty prevoshodyat gpt 5 v korporativnyh zadachah

Специализированные RL-агенты превосходят GPT-5 в корпоративных задачах

Как пишет Scale в своем блоге, корпорации сталкиваются с проблемой адаптации стандартных AI-моделей к своим уникальным рабочим процессам. Это требует создания специализированных агентов на основе обучения с подкреплением.

Проблема готовых решений

Общедоступные AI-модели демонстрируют впечатляющие общие возможности, но терпят неудачу там, где это критически важно — при выполнении специализированных задач, требующих работы с внутренними системами и проприетарными данными компаний.

Исследования Scale показывают, что обучение с подкреплением позволяет создавать агентов, которые значительно превосходят даже самые мощные модели вроде GPT-5:

  • В страховом бенчмарке — 46,9% точности против 21,9% у лучшей готовой модели
  • В юридическом бенчмарке — 83,6% точности против 79,6% с резким снижением галлюцинаций

Интересно наблюдать, как обучение с подкреплением из академической дисциплины превращается в практический инструмент для бизнеса. Результаты впечатляют, но главный вопрос — насколько масштабируема эта методология для средних компаний без ресурсов крупных корпораций.

Корпоративная data flywheel

В основе подхода лежит концепция data flywheel — цикла, где агенты взаимодействуют с корпоративными инструментами, получают обратную связь от сотрудников и генерируют данные для улучшения обучения.

Ключевые факторы успеха RL в корпоративной среде:

  1. Высококачественные данные, отражающие сложность реальных рабочих процессов
  2. Стабильная инфраструктура обучения
  3. Специфические критерии оценки и системы вознаграждений
  4. Сильная предварительная модель для эффективного обучения

Конкретные результаты

Text-to-SQL для страховой компании

Для глобальной страховой компании была реализована задача преобразования текста в SQL-запросы. Использовались исключительно self-hosted модели с открытым исходным кодом из-за требований безопасности данных.

Модели RL показали улучшение точности выполнения с 18,8% до 40,6% — более чем двукратный рост. Даже крупная модель Qwen3-Coder-480B-A35B достигла только 21,9% точности, что подчеркивает сложность задачи.

Сравнение точности юридических рассуждений между RL-моделями и базовыми версиями GPT-5
Источник: www.scale.com

Юридическое извлечение и рассуждение

Для ведущей международной юридической фирмы разработана многошаговая задача поиска данных и юридических рассуждений. Модели имели доступ к трем инструментам поиска: выбор страниц, текстовый поиск и семантический поиск.

RL-обученные модели показали рост точности на 17-29% по сравнению с базовыми версиями, превосходя GPT-5 как в версии с инструментами, так и в версии с полным контекстом.

График сравнения уровня галлюцинаций RL-модели и GPT-5
Источник: www.scale.com

Практические импликации

Методология демонстрирует, что специализированные агенты могут достигать уровня точности, недоступного даже самым передовым универсальным моделям. Это особенно важно для отраслей с жесткими требованиями к точности и конфиденциальности данных.

Текущие исследования расширяются в сторону многошаговых сред с инструментами, где выполнение SQL становится интерактивным процессом, позволяя агентам итеративно отлаживать и проверять запросы.

Забавно, что пока все говорят о размере моделей, реальный прорыв происходит в области специализации. Похоже, будущее корпоративного AI не за гигантскими универсальными моделями, а за армией узкоспециализированных агентов, каждый из которых отлично справляется со своей задачей.

Похожие записи