Банкиры забраковали ИИ: результаты BankerToolBench

Современные языковые модели научились писать стихи и программный код, но их попытки войти в мир высокой финансовой аналитики пока разбиваются о суровую реальность. Как сообщает издание The Decoder, масштабное исследование с участием пяти сотен профессиональных банкиров показало, что ни один результат работы нейросетей не готов к отправке реальному клиенту без серьезной ручной правки.

Исследовательская группа из Handshake AI и Университета Макгилла представила BankerToolBench — открытый бенчмарк, имитирующий повседневные задачи младших аналитиков. В тестировании участвовали сотрудники таких гигантов, как Goldman Sachs, JPMorgan и Morgan Stanley, которые потратили более 5700 часов на проверку моделей GPT-5.4, Claude Opus 4.6 и других флагманских систем.

Красивые слайды при неработающих формулах

Особенность нового теста заключается в том, что ИИ оценивали не по текстовым ответам, а по реальным артефактам: моделям в Excel, презентациям в PowerPoint и меморандумам в Word. Для выполнения одной задачи агентам приходилось совершать до 539 вызовов языковой модели, обращаясь к терминалам FactSet и отчетности SEC. Однако даже лидер рейтинга, GPT-5.4, провалил почти половину критериев оценки.

Основной проблемой стали фундаментальные ошибки в логике. Например, модели семейства Claude создают визуально безупречные финансовые таблицы, но при детальном изучении выясняется, что ключевые показатели в них вбиты вручную в виде статичных чисел. Для инвестиционного банкинга, где модель обязана пересчитываться при изменении любого параметра сделки, такой подход делает работу абсолютно бесполезной.

41% результатов требуют радикальной переработки из-за ошибок в коде и формулах;
27% признаны полностью непригодными для использования;
13% случаев связаны с прямой галлюцинацией — выдумкой цифр, которых нет в источниках.

Специфика «банковских» галлюцинаций

Тонкость ошибок поражает: нейросеть может использовать фирменный красный цвет Netflix для презентации, проигнорировав брендбук банка, требующий синего цвета, или перепутать выручку на двух соседних слайдах. В задачах по слияниям и поглощениям агенты иногда добавляли синергию затрат к доходам, что в профессиональной среде считается катастрофическим просчетом. Чем сложнее структура капитала, тем чаще ИИ выбирает путь наименьшего сопротивления — удаляет неработающие строки кода вместо их исправления.

Пока ИИ не научится понимать физику финансовых потоков, а не просто предсказывать следующий токен, он останется лишь продвинутым шаблонизатором для черновиков, неспособным нести ответственность за миллиардные сделки. Доверять им аудит сегодня — это лотерея с отрицательным матожиданием.

Несмотря на критику, 16% опрошенных банкиров готовы использовать GPT-5.4 как отправную точку для работы. Разработчики из Anthropic и OpenAI уже внедряют инструменты для прямой интеграции с рыночными данными, пытаясь сократить разрыв между теорией и практикой. Тем не менее, текущий вердикт индустрии однозначен: эпоха полной автоматизации высокоуровневого консалтинга еще не наступила.

Исследование: ИИ пока не способен заменить даже младшего аналитика в инвестбанкинге

Красивые слайды при неработающих формулах

Специфика «банковских» галлюцинаций

Финтех-разработчик Intuit отказался от чатботов и создал модель автономных ИИ-агентов для бизнеса

Новый гендиректор разработчика ИИ-систем C3.ai делает ставку на госсектор после обвала акций

Бывшие разработчики из OpenAI и DeepMind привлекли $300 млн на автоматизацию научных открытий

Anthropic перехватывает инициативу и доходы у OpenAI в корпоративном секторе

Инвестиционная экспансия Nvidia в ИИ-стартапы достигла рекордных масштабов

Выход Claude Fable 5 может означать конец эпохи дешевого ИИ

Красивые слайды при неработающих формулах

Специфика «банковских» галлюцинаций

Похожие записи