Featured image for v mit predlozhili metod dinamicheskoj adaptatsii vychislenij v llm dlya slozhnyh zadach

В MIT предложили метод динамической адаптации вычислений в LLM для сложных задач

По сообщению MIT News, исследователи из MIT предложили метод, позволяющий большим языковым моделям (LLM) гибко распределять вычислительные ресурсы в зависимости от сложности вопроса, вместо траты фиксированного объема токенов.

Обычно LLM тратят одинаковое количество ресурсов на любые задачи, что приводит к перерасходу на простых вопросах и недостатку мощности на сложных. Новый подход, названный instance-adaptive scaling, оценивает трудность проблемы и вероятность успеха частичных решений, позволяя модели корректировать усилия на лету.

Ключевые преимущества метода

Эксперименты показали, что LLM с этой техникой расходуют в два раза меньше вычислений, сохраняя точность на разнообразных задачах. Кроме того, менее мощные модели теперь справляются с комплексными проблемами на уровне или лучше крупных аналогов.

  • Снижение энергопотребления генеративного ИИ.
  • Применение в критических областях, где важен баланс скорости и надежности.
  • Улучшение эффективности инференса — основного узкого места для провайдеров моделей.

Технические детали

Метод использует процесс reward модели (PRM) для оценки вероятности успеха на каждом шаге рассуждения. Если модель уверена, она сокращает количество исследуемых путей решений, экономя токены. Однако исследователи столкнулись с проблемой переоценки вероятностей PRM и разработали калибровку для более точных оценок неопределенности.

Это напоминает человеческое мышление: мы генерируем варианты, оцениваем их перспективность и либо углубляемся, либо пересматриваем подход. Результат — более умное распределение ресурсов, что особенно актуально для адаптивного рассуждения, как в недавнем выпуске GPT-5.1.

Звучит как идеальный хак для снижения счетов за облачные вычисления, но давайте не забывать: даже с умной адаптацией LLM все еще могут спотыкаться на нюансах, которые человек разглядит с первого взгляда. Эффективность — хорошо, но истинная смекалка требует не только скорости, а настоящего понимания.

Команда из MIT, включая Навид Азизан и Хао Ванга, представит работу на конференции по нейронным информационным процессам. Это шаг к более устойчивым ИИ-системам, где экономия ресурсов не идет в ущерб качеству.

Похожие записи