GPT-OSS модели OpenAI: тестирование и результаты

После шестилетнего перерыва OpenAI выпустила две открытые языковые модели: gpt-oss-120b и gpt-oss-20b. Компания DataRobot провела комплексное тестирование этих моделей с помощью своего фреймворка оптимизации рабочих процессов syftr, включая поддержку новой функции OpenAI — «уровня мышления».

Методология тестирования

Исследователи сравнили модели GPT-OSS с другими сильными открытыми моделями:

qwen3-235b-a22b
glm-4.5-air
nemotron-super-49b
qwen3-30b-a3b
gemma3-27b-it
phi-4-multimodal-instruct

Каждая модель GPT-OSS тестировалась в трех режимах мышления: низком, среднем и высоком. Для оценки использовались пять режимов RAG и агентов, 16 моделей эмбеддингов и четыре набора данных:

FinanceBench (финансовые рассуждения)
HotpotQA (многошаговые вопросы)
MultihopRAG (рассуждения с усилением поиска)
PhantomWiki (синтетические пары вопрос-ответ)

Результаты оптимизации

При оптимизации для задержки и стоимости обнаружились неожиданные закономерности:

GPT-OSS 20b (низкий уровень мышления): быстрая, недорогая и стабильно точная конфигурация. Эта настройка неоднократно появлялась на границе Парето, что делает ее лучшим выбором по умолчанию для большинства ненаучных задач.

GPT-OSS 120b (средний уровень мышления): лучше всего подходит для задач, требующих глубоких рассуждений, таких как финансовые тесты. Используйте эту модель, когда точность решения сложных проблем важнее стоимости.

GPT-OSS 120b (высокий уровень мышления): дорогой и обычно ненужный. Оставьте его на крайний случай, когда другие модели не справляются. Для наших тестов он не добавил ценности.

График оптимизации точности и задержки, сравнивающий модели GPT-OSS OpenAI — Источник: www.datarobot.com

Рисунок 1: Оптимизация точности и задержки с помощью syftr

График оптимизации точности и стоимости, сравнивающий модели GPT-OSS — Источник: www.datarobot.com

Рисунок 2: Оптимизация точности и стоимости с помощью syftr

Нюансы интерпретации результатов

Максимальный показатель точности языковой модели зависит не только от самой модели, но и от того, как оптимизатор взвешивает ее по сравнению с другими моделями в наборе. На примере FinanceBench:

При оптимизации для задержки все модели GPT-OSS (кроме высокого уровня мышления) показали схожие границы Парето. В этом случае у оптимизатора было мало причин концентрироваться на конфигурации 20b с низким уровнем мышления — ее максимальная точность составляла всего 51%.

Парето-фронты для оптимизации задержки моделей LLM в FinanceBench — Источник: www.datarobot.com

Рисунок 3: Границы Парето для каждой LLM при оптимизации задержки на FinanceBench

При оптимизации для стоимости картина резко меняется. Та же конфигурация 20b с низким уровнем мышления подскакивает до 57% точности, в то время как конфигурация 120b со средним уровнем мышления фактически падает на 22%. Почему? Потому что модель 20b намного дешевле, поэтому оптимизатор смещает больший вес в ее сторону.

Парето-фронт для оптимизации стоимости по моделям LLM в FinanceBench — Источник: www.datarobot.com

Рисунок 4: Границы Парето для каждой LLM при оптимизации стоимости на FinanceBench

Ирония ситуации в том, что индустрия годами верила в «чем больше — тем лучше», а теперь оказывается, что скромная 20-миллиардная модель с минимальным «мышлением» может обойти монстров на 120 миллиардов параметров. Это отличное напоминание, что настоящая оптимизация — это не про максимальную мощность, а про поиск идеального баланса между стоимостью, скоростью и качеством для конкретной задачи.

Практические выводы

Новые модели GPT-OSS показали сильные результаты в тестах — особенно 20b с низким уровнем мышления, которая часто опережала более дорогих конкурентов. Главный урок? Больше модели и больше усилий не всегда означают большую точность. Иногда платить больше — значит получать меньше.

Тестирование GPT-OSS моделей OpenAI: меньшая модель оказалась эффективнее

Методология тестирования

Результаты оптимизации

Нюансы интерпретации результатов

Практические выводы

Архитектура MoE — основа для всех ИИ-моделей из ТОП-10

Nvidia выпускает семейство open-source моделей Nemotron 3

Sora для Android установили почти полмиллиона раз в первый же день

Консорциум европейских компаний и университетов выпустил языковую модель EuroLLM-22B

Китайская модель Kimi K2 Thinking превзошла GPT-5 и Claude 4.5 в ключевых тестах

Почему ChatGPT не должен быть вашим терапевтом

Методология тестирования

Результаты оптимизации

Нюансы интерпретации результатов

Практические выводы

Похожие записи