Featured image for testirovanie gpt oss modelej openai menshaya model okazalas effektivnee

Тестирование GPT-OSS моделей OpenAI: меньшая модель оказалась эффективнее

После шестилетнего перерыва OpenAI выпустила две открытые языковые модели: gpt-oss-120b и gpt-oss-20b. Компания DataRobot провела комплексное тестирование этих моделей с помощью своего фреймворка оптимизации рабочих процессов syftr, включая поддержку новой функции OpenAI — «уровня мышления».

Методология тестирования

Исследователи сравнили модели GPT-OSS с другими сильными открытыми моделями:

  • qwen3-235b-a22b
  • glm-4.5-air
  • nemotron-super-49b
  • qwen3-30b-a3b
  • gemma3-27b-it
  • phi-4-multimodal-instruct

Каждая модель GPT-OSS тестировалась в трех режимах мышления: низком, среднем и высоком. Для оценки использовались пять режимов RAG и агентов, 16 моделей эмбеддингов и четыре набора данных:

  • FinanceBench (финансовые рассуждения)
  • HotpotQA (многошаговые вопросы)
  • MultihopRAG (рассуждения с усилением поиска)
  • PhantomWiki (синтетические пары вопрос-ответ)

Результаты оптимизации

При оптимизации для задержки и стоимости обнаружились неожиданные закономерности:

GPT-OSS 20b (низкий уровень мышления): быстрая, недорогая и стабильно точная конфигурация. Эта настройка неоднократно появлялась на границе Парето, что делает ее лучшим выбором по умолчанию для большинства ненаучных задач.

GPT-OSS 120b (средний уровень мышления): лучше всего подходит для задач, требующих глубоких рассуждений, таких как финансовые тесты. Используйте эту модель, когда точность решения сложных проблем важнее стоимости.

GPT-OSS 120b (высокий уровень мышления): дорогой и обычно ненужный. Оставьте его на крайний случай, когда другие модели не справляются. Для наших тестов он не добавил ценности.

График оптимизации точности и задержки, сравнивающий модели GPT-OSS OpenAI
Источник: www.datarobot.com

Рисунок 1: Оптимизация точности и задержки с помощью syftr

График оптимизации точности и стоимости, сравнивающий модели GPT-OSS
Источник: www.datarobot.com

Рисунок 2: Оптимизация точности и стоимости с помощью syftr

Нюансы интерпретации результатов

Максимальный показатель точности языковой модели зависит не только от самой модели, но и от того, как оптимизатор взвешивает ее по сравнению с другими моделями в наборе. На примере FinanceBench:

При оптимизации для задержки все модели GPT-OSS (кроме высокого уровня мышления) показали схожие границы Парето. В этом случае у оптимизатора было мало причин концентрироваться на конфигурации 20b с низким уровнем мышления — ее максимальная точность составляла всего 51%.

Парето-фронты для оптимизации задержки моделей LLM в FinanceBench
Источник: www.datarobot.com

Рисунок 3: Границы Парето для каждой LLM при оптимизации задержки на FinanceBench

При оптимизации для стоимости картина резко меняется. Та же конфигурация 20b с низким уровнем мышления подскакивает до 57% точности, в то время как конфигурация 120b со средним уровнем мышления фактически падает на 22%. Почему? Потому что модель 20b намного дешевле, поэтому оптимизатор смещает больший вес в ее сторону.

Парето-фронт для оптимизации стоимости по моделям LLM в FinanceBench
Источник: www.datarobot.com

Рисунок 4: Границы Парето для каждой LLM при оптимизации стоимости на FinanceBench

Ирония ситуации в том, что индустрия годами верила в «чем больше — тем лучше», а теперь оказывается, что скромная 20-миллиардная модель с минимальным «мышлением» может обойти монстров на 120 миллиардов параметров. Это отличное напоминание, что настоящая оптимизация — это не про максимальную мощность, а про поиск идеального баланса между стоимостью, скоростью и качеством для конкретной задачи.

Практические выводы

Новые модели GPT-OSS показали сильные результаты в тестах — особенно 20b с низким уровнем мышления, которая часто опережала более дорогих конкурентов. Главный урок? Больше модели и больше усилий не всегда означают большую точность. Иногда платить больше — значит получать меньше.

Похожие записи