Featured image for nvidia predstavila profbench etalon dlya otsenki professionalnogo myshleniya llm

NVIDIA представила ProfBench — эталон для оценки профессионального мышления LLM

Современные языковые модели демонстрируют впечатляющие результаты на стандартных тестах, но могут ли они действительно мыслить как профессионалы уровня PhD или MBA? Этот вопрос стал центральным в новом бенчмарке ProfBench, который NVIDIA интегрировала в свой SDK NeMo Evaluator.

Что такое ProfBench?

ProfBench — это специализированный эталон для оценки языковых моделей на сложных, открытых задачах, требующих профессиональных знаний. В отличие от традиционных тестов с короткими ответами, здесь модели сталкиваются с многостраничными заданиями, аналогичными реальной работе экспертов.

Датасет содержит более 7000 пар «ответ-критерий» в четырех областях экспертизы:

  • Финансы MBA
  • Консалтинг MBA
  • Химия PhD
  • Физика PhD

Примеры реальных задач

В сфере финансов MBA модель получает задание проанализировать International Finance Facility for Immunization (IFFIm) и его использование секьюритизации для финансирования альянса вакцин GAVI. Требуется:

  1. Проанализировать историю IFFIm
  2. Детализировать технические аспекты, факторы успеха и риски
  3. Оценить возможность использования IFFIm как «шаблона» для других инициатив
  4. Определить 3-5 организаций, которые могли бы использовать подобную модель
  5. Представить анализ в стиле инвестиционного меморандума

В химии PhD задания включают сложные расчеты титрования смеси кислот с точными требованиями к вычислениям концентраций и pH.

Особенности системы оценки

Диаграмма распределения рубрик категорий ProfBench

Источник: huggingface.co

Fig 1. Распределение рубрик по категориям и подкатегориям.

Оценка в ProfBench строится не на простом сравнении ответов, а на трех ключевых измерениях:

  • Извлечение информации: Корректность данных и деталей
  • Рассуждение: Логическая обоснованность, математическая точность
  • Стиль: Четкость изложения и соответствие формату

Для финансового MBA критерии включают такие пункты как: «Указывает, что нарушение ликвидной политики IFFIm может негативно повлиять на его кредитный рейтинг» или «Представляет выводы ясно для эффективного использования».

В химии оценивается точность вычислений с допустимыми погрешностями, например: «Определяет объем титранта NaOH для достижения pH 7.0 как 0.11938 ± 0.001 л».

Создание эталона экспертами

ProfBench разрабатывался самими профессионалами, которых он призван оценивать. В создании участвовали 38 специалистов из 8 стран, обладающих PhD, MBA или эквивалентным опытом работы в соответствующих областях.

Интересно наблюдать, как индустрия постепенно переходит от тестирования «эрудиции» моделей к оценке их профессиональной компетентности. ProfBench — это важный шаг в сторону реальных бизнес-применений, где недостаточно просто знать факты, нужно уметь их анализировать и применять в сложных контекстах. Правда, остается открытым вопрос, насколько такие тесты действительно предсказывают успешность моделей в реальных рабочих процессах, а не просто создают еще один искусственный барьер для прохождения.

Новый эталон доступен непосредственно в NVIDIA NeMo Evaluator SDK, который предоставляет масштабируемый и воспроизводимый способ запуска сотен бенчмарков на основе популярных систем оценки.

Источник новости: Hugging Face

Похожие записи