Google научила ИИ-агентов экономить на вычислениях и инструментах

Исследователи из Google и Университета Калифорнии в Санта-Барбаре представили новый подход к управлению ресурсами ИИ-агентов, который позволяет им осознанно тратить вычислительные мощности и бюджет на использование внешних инструментов. По сообщению VentureBeat, работа сосредоточена на решении практической проблемы: предоставление агенту больше ресурсов не гарантирует лучшего результата, а лишь ведет к неэффективным затратам.

Проблема не в мощности, а в стратегии

Традиционный подход масштабирования во время выполнения (test-time scaling) предполагает, что модель просто «думает» дольше. Однако для агентов, взаимодействующих с внешним миром через инструменты (например, поиск в интернете), ключевым становится количество вызовов этих инструментов. Каждый такой вызов увеличивает потребление токенов, расширяет контекст и создает дополнительную задержку, что напрямую влияет на стоимость и время выполнения задачи.

«В сложной исследовательской задаче, если агент не осознает бюджет, он часто идет вслепую», — объясняют авторы исследования Цифэн Ван и Тэнсяо Лю. — «Он находит одну более-менее связанную зацепку, затем тратит 10 или 20 вызовов инструментов, углубляясь в нее, только чтобы осознать, что весь этот путь был тупиковым».

Это классическая инженерная проблема, вывернутая наизнанку. Вместо того чтобы просто наращивать вычислительную мощность, Google предлагает дать агенту «финансовую грамотность» — способность планировать расходы. В корпоративной среде, где каждый запрос к API Gemini или Claude имеет ценник, это не просто академическое упражнение, а насущная необходимость. Ирония в том, что мы учим ИИ быть экономным, в то время как рынок заливает его деньгами.

Budget Tracker: простой контролер расходов

Первым решением стал легковесный модуль «Budget Tracker». Это плагин, работающий на уровне промптов, который постоянно информирует агента о доступных ресурсах. Он предоставляет краткие рекомендации по использованию инструментов в зависимости от оставшегося бюджета и на каждом шаге делает агента явно осведомленным о его потреблении и остатке средств.

Исследователи протестировали подход на агентах для поиска информации, использующих инструменты поиска и просмотра веб-страниц по методу ReAct (Reasoning + Acting). Тестирование проводилось на датасетах BrowseComp и HLE-Search с использованием моделей Gemini 2.5 Pro, Gemini 2.5 Flash и Claude Sonnet 4.

Результаты оказались впечатляющими: добавление Budget Tracker позволило достичь сопоставимой точности, сократив при этом:

Количество поисковых запросов на 40.4%
Количество просмотров страниц на 19.9%
Общую стоимость операций на 31.3%

Ключевой момент: с Budget Tracker производительность продолжала расти по мере увеличения бюджета, в то время как обычный подход ReAct выходил на плато после определенного порога.

BATS: комплексный фреймворк для масштабирования с учетом бюджета

Для более глубокой оптимизации был представлен фреймворк Budget Aware Test-time Scaling (BATS). Его цель — максимизировать производительность агента при любом заданном бюджете. BATS использует несколько модулей для оркестрации действий:

Планирование: адаптирует усилия на каждом шаге в соответствии с текущим бюджетом.
Верификация: решает, стоит ли «копать глубже» по многообещающему направлению или «сменить курс» на альтернативные пути, основываясь на доступных ресурсах.
Budget Tracker: непрерывно обновляет информацию об использовании и остатке ресурсов.

Процесс итеративно продолжается до исчерпания бюджета, после чего модель-судья (LLM-as-a-judge) выбирает лучший ответ среди всех проверенных вариантов.

Результаты и перспективы

Тесты на датасетах BrowseComp, BrowseComp-ZH и HLE-Search показали значительное преимущество BATS над базовым ReAct и другими методами. Например, с Gemini 2.5 Pro в качестве основы BATS достиг точности в 24.6% на BrowseComp против 12.6% у стандартного ReAct.

Эффективность выражается не только в точности, но и в стоимости. На том же BrowseComp BATS достиг более высокой точности при стоимости около 23 центов, в то время как базовый метод параллельного масштабирования требовал для аналогичного результата более 50 центов.

Авторы утверждают, что такая эффективность делает ранее дорогостоящие рабочие процессы жизнеспособными. «Это открывает путь к целому спектру долгосрочных, интенсивных по данным корпоративных приложений… таких как поддержка сложных кодовых баз, комплексные проверки, исследование конкурентного ландшафта, аудит соответствия требованиям и многоэтапный анализ документов», — заявили они.

Выход за рамки лабораторных тестов — вот где начинается реальная проверка. Предложенный Google подход выглядит как логичный следующий шаг для индустрии, уставшей от непредсказуемых счетов за облачные вычисления. Однако успех будет зависеть от того, насколько гибко фреймворк сможет адаптироваться к разнообразным и динамичным реальным задачам, где «бюджет» — это не только деньги, но и время, и репутация. Если ИИ-агенты научатся не просто выполнять задачи, но и делать это рентабельно, это изменит правила игры для автоматизации бизнес-процессов.

По мере того как предприятия стремятся развертывать агентов, управляющих собственными ресурсами, способность балансировать между точностью и стоимостью станет критическим требованием к дизайну. Как сказали авторы: «Мы считаем, что связь между рассуждением и экономикой станет неразрывной. В будущем модели должны рассуждать о ценности».

Google представила фреймворк для контроля бюджета ИИ-агентов

Проблема не в мощности, а в стратегии

Budget Tracker: простой контролер расходов

BATS: комплексный фреймворк для масштабирования с учетом бюджета

Результаты и перспективы

Perplexity предлагает $34,5 млрд за Google Chrome, хотя сам стоит вдвое меньше

Википедия тоже теряет трафик из-за ИИ-ответов и соцсетей, как и СМИ

Gemini Live API стал общедоступным на платформе Vertex AI

Открытая модель gpt-oss-120b получила золотую медаль IOI 2025 за масштабирование вычислений

GPT-5 оказался надежнее и быстрее предшественников, но разочаровал тех, кто ждал революцию

Китайский сервис доставки еды Meituan выпустил открытую языковую модель LongCat-Flash

Проблема не в мощности, а в стратегии

Budget Tracker: простой контролер расходов

BATS: комплексный фреймворк для масштабирования с учетом бюджета

Результаты и перспективы

Похожие записи