Featured image for ii modeli prohodyat vse 3 urovnya ekzamena cfa i nabirayut vysshie bally

ИИ-модели проходят все 3 уровня экзамена CFA и набирают высшие баллы

Новое исследование демонстрирует, что современные модели искусственного интеллекта с продвинутыми возможностями рассуждения способны успешно сдать один из самых сложных финансовых экзаменов в мире. Gemini 3.0 Pro установил абсолютный рекорд, набрав 97,6% на первом уровне тестирования.

От неудач к почти идеальным результатам

Сертификация Chartered Financial Analyst (CFA) считается одним из наиболее требовательных квалификационных испытаний в финансовой отрасли. Трехуровневый экзамен проверяет постепенно усложняющиеся навыки — от фундаментальных знаний до анализа, применения и построения сложных инвестиционных портфелей.

Еще в 2023 году ведущие языковые модели демонстрировали нестабильные результаты: ChatGPT (3.5) провалил первые два уровня, а GPT-4 прошел только первый уровень. Лишь GPT-4o в чистом языковом режиме смог преодолеть все три этапа.

Согласно новому исследованию ученых из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, нынешнее поколение reasoning-моделей проходит все уровни экзамена, иногда показывая почти идеальные результаты.

Исследователи протестировали шесть моделей на 980 экзаменационных вопросах: три экзамена Level I с 540 вопросами с множественным выбором, два Level II с 176 кейс-заданиями и три Level III с 264 вопросами, включая открытые ответы. Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни по установленным критериям.

Лидеры тестирования

На первом уровне, проверяющем базовые знания через независимые вопросы с множественным выбором, Gemini 3.0 Pro показал феноменальный результат в 97,6%. GPT-5 занял второе место с 96,1%, а Gemini 2.5 Pro — третье с 95,7%. Даже самая слабая модель, DeepSeek-V3.1, набрала 90,9%.

На втором уровне, где проверяется применение знаний через кейс-стади, лидерство перешло к GPT-5 с 94,3%. Gemini 3.0 Pro достиг 93,2%, а Gemini 2.5 Pro — 92,6%. Исследователи отметили, что модели демонстрируют здесь «почти идеальные результаты». При этом этические вопросы оказались слабым местом — даже у лучших моделей наблюдалась относительная частота ошибок 17-21%.

На третьем, самом сложном уровне, сочетающем вопросы с множественным выбором и открытые ответы, Gemini 2.5 Pro показал лучший результат в тесте с выбором ответа (86,4%), тогда как Gemini 3.0 Pro доминировал в секции с открытыми ответами с результатом 92,0% — значительный скачок по сравнению с 82,8% у предыдущей версии.

То, что еще два года назад казалось научной фантастикой, сегодня стало рутиной тестирования. Интересно, что этика остается ахиллесовой пятой даже самых продвинутых моделей — машины по-прежнему лучше справляются с расчетами, чем с моральными дилеммами. Финансовым аналитикам пока не стоит беспокоиться о своих рабочих местах: успешная сдача экзамена не означает способности вести переговоры с клиентами или улавливать рыночные настроения.

Ограничения и перспективы

Исследователи использовали пробные экзамены из официального пакета CFA Institute Practice Pack (Levels I и II) и мок-тесты AnalystPrep (Level III). Для оценки открытых ответов применялась модель o4-mini, что вносит возможные погрешности измерения и «предвзятость к многословию» — когда более подробные ответы получают более высокие оценки.

Также нельзя исключить загрязнение данных: хотя использовались актуальные платные материалы, вопросы могли попасть в тренировочные данные через перефразированные версии в публичных наборах. Это означает, что модели могли просто «знать» ответы, а не рассуждать над ними.

Авторы исследования утверждают, что результаты свидетельствуют: «модели рассуждения превосходят экспертизу, требуемую от финансовых аналитиков начального и среднего уровня и могут достичь уровня старших аналитиков в будущем».

Тем не менее, скачок от «провала» к «почти идеалу» всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора вопрос, похоже, уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.

Источник новости: The Decoder

Похожие записи