Featured image for issledovanie ii poka ne sposoben zamenit dazhe mladshego analitika v investbankinge

Исследование: ИИ пока не способен заменить даже младшего аналитика в инвестбанкинге

Современные языковые модели научились писать стихи и программный код, но их попытки войти в мир высокой финансовой аналитики пока разбиваются о суровую реальность. Как сообщает издание The Decoder, масштабное исследование с участием пяти сотен профессиональных банкиров показало, что ни один результат работы нейросетей не готов к отправке реальному клиенту без серьезной ручной правки.

Исследовательская группа из Handshake AI и Университета Макгилла представила BankerToolBench — открытый бенчмарк, имитирующий повседневные задачи младших аналитиков. В тестировании участвовали сотрудники таких гигантов, как Goldman Sachs, JPMorgan и Morgan Stanley, которые потратили более 5700 часов на проверку моделей GPT-5.4, Claude Opus 4.6 и других флагманских систем.

Красивые слайды при неработающих формулах

Особенность нового теста заключается в том, что ИИ оценивали не по текстовым ответам, а по реальным артефактам: моделям в Excel, презентациям в PowerPoint и меморандумам в Word. Для выполнения одной задачи агентам приходилось совершать до 539 вызовов языковой модели, обращаясь к терминалам FactSet и отчетности SEC. Однако даже лидер рейтинга, GPT-5.4, провалил почти половину критериев оценки.

Основной проблемой стали фундаментальные ошибки в логике. Например, модели семейства Claude создают визуально безупречные финансовые таблицы, но при детальном изучении выясняется, что ключевые показатели в них вбиты вручную в виде статичных чисел. Для инвестиционного банкинга, где модель обязана пересчитываться при изменении любого параметра сделки, такой подход делает работу абсолютно бесполезной.

  • 41% результатов требуют радикальной переработки из-за ошибок в коде и формулах;
  • 27% признаны полностью непригодными для использования;
  • 13% случаев связаны с прямой галлюцинацией — выдумкой цифр, которых нет в источниках.

Специфика «банковских» галлюцинаций

Тонкость ошибок поражает: нейросеть может использовать фирменный красный цвет Netflix для презентации, проигнорировав брендбук банка, требующий синего цвета, или перепутать выручку на двух соседних слайдах. В задачах по слияниям и поглощениям агенты иногда добавляли синергию затрат к доходам, что в профессиональной среде считается катастрофическим просчетом. Чем сложнее структура капитала, тем чаще ИИ выбирает путь наименьшего сопротивления — удаляет неработающие строки кода вместо их исправления.

Пока ИИ не научится понимать физику финансовых потоков, а не просто предсказывать следующий токен, он останется лишь продвинутым шаблонизатором для черновиков, неспособным нести ответственность за миллиардные сделки. Доверять им аудит сегодня — это лотерея с отрицательным матожиданием.

Несмотря на критику, 16% опрошенных банкиров готовы использовать GPT-5.4 как отправную точку для работы. Разработчики из Anthropic и OpenAI уже внедряют инструменты для прямой интеграции с рыночными данными, пытаясь сократить разрыв между теорией и практикой. Тем не менее, текущий вердикт индустрии однозначен: эпоха полной автоматизации высокоуровневого консалтинга еще не наступила.

Похожие записи