ACE предотвращает коллапс контекста в LLM с помощью эволюционирующих инструкций
Исследователи из Stanford University и компании SambaNova представили новый фреймворк под названием Agentic Context Engineering (ACE), который решает одну из ключевых проблем в разработке устойчивых ИИ-агентов — управление контекстом. Технология автоматически наполняет и модифицирует контекстное окно приложений на основе больших языковых моделей, превращая его в «эволюционирующий плейбук», который создает и совершенствует стратегии по мере накопления агентом опыта.
Проблема контекстной инженерии
Современные ИИ-приложения на основе LLM в значительной степени полагаются на «контекстную адаптацию» для управления поведением моделей. Вместо дорогостоящего процесса переобучения или тонкой настройки модели разработчики используют способность LLM к обучению в контексте, направляя ее поведение через модификацию входных промптов с конкретными инструкциями, шагами рассуждения или предметными знаниями.
Контекстная инженерия предлагает несколько преимуществ для корпоративных приложений:
- Контексты интерпретируемы как для пользователей, так и для разработчиков
- Могут обновляться новыми знаниями во время выполнения
- Могут использоваться совместно различными моделями
Однако большинство автоматизированных методов контекстной инженерии сталкиваются с двумя ключевыми ограничениями. Первое — это «предвзятость к краткости», когда методы оптимизации промптов предпочитают лаконичные, обобщенные инструкции вместо комплексных и детализированных. Второе, более серьезное ограничение — «коллапс контекста».
«То, что мы называем «коллапсом контекста», происходит, когда ИИ пытается переписать или сжать все, что он изучил, в единую новую версию своего промпта или памяти», — объясняют исследователи. «Со временем этот процесс перезаписи стирает важные детали — как будто переписываешь документ так много раз, что ключевые заметки исчезают. В клиентоориентированных системах это может означать, что агент поддержки внезапно теряет осведомленность о прошлых взаимодействиях… вызывая непредсказуемое или противоречивое поведение».
Коллапс контекста — это фундаментальная проблема для ИИ-агентов, которые должны сохранять последовательность в долгосрочных взаимодействиях. Интересно, что исследователи подошли к решению с биологически вдохновленным подходом — разделение функций на генерацию, рефлексию и кураторство напоминает то, как работает человеческое мышление. Особенно ценно то, что эта система позволяет использовать меньшие модели с тем же успехом, что и гигантские проприетарные решения.
Как работает Agentic Context Engineering
ACE — это фреймворк для комплексной контекстной адаптации, предназначенный как для офлайн-задач, таких как оптимизация системных промптов, так и для онлайн-сценариев, таких как обновление памяти агентов в реальном времени. Вместо сжатия информации ACE рассматривает контекст как динамический плейбук, который собирает и организует стратегии со временем.
Фреймворк распределяет задачи между тремя специализированными ролями:
- Генератор — создает пути рассуждения для входных промптов
- Рефлектор — анализирует эти пути для извлечения ключевых уроков
- Куратор — синтезирует эти уроки в компактные обновления и объединяет их в существующий плейбук
Модульная архитектура вдохновлена «тем, как учатся люди — экспериментирование, рефлексия и консолидация — избегая при этом узкого места перегрузки одной модели всеми обязанностями», согласно исследованию.
Для предотвращения коллапса контекста и предвзятости к краткости ACE включает два ключевых принципа проектирования. Во-первых, он использует инкрементные обновления — контекст представляется как коллекция структурированных, пунктирных элементов вместо единого блока текста. Это позволяет ACE вносить детализированные изменения и извлекать наиболее релевантную информацию без переписывания всего контекста.
Во-вторых, ACE использует механизм «роста и уточнения» — по мере накопления нового опыта новые пункты добавляются в плейбук, а существующие обновляются. Регулярный шаг дедупликации удаляет избыточные записи, обеспечивая сохранение контекста комплексным, но релевантным и компактным со временем.
ACE в действии
Исследователи оценили ACE на двух типах задач, которые выигрывают от эволюционирующего контекста: бенчмарки агентов, требующие многократного рассуждения и использования инструментов, и специализированные бенчмарки финансового анализа, требующие предметных знаний.
Для высокорисковых отраслей, таких как финансы, преимущества выходят за пределы чистой производительности. Как отмечают исследователи, фреймворк «значительно более прозрачен: сотрудник по комплаенсу может буквально прочитать, что ИИ изучил, поскольку это хранится в читаемом тексте, а не скрыто в миллиардах параметров».
Результаты показали, что ACE последовательно превосходит сильные базовые методы, такие как GEPA и классическое обучение в контексте, достигая среднего прироста производительности 10,6% на задачах агентов и 8,6% на предметных бенчмарках как в офлайн, так и в онлайн-режимах.
Критически важно, что ACE может строить эффективные контексты, анализируя обратную связь от своих действий и окружения, вместо требования размеченных данных вручную. Исследователи отмечают, что эта способность является «ключевым ингредиентом для самосовершенствующихся LLM и агентов».
На публичном бенчмарке AppWorld, предназначенном для оценки агентских систем, агент, использующий ACE с меньшей открытой моделью (DeepSeek-V3.1), соответствовал производительности топового агента на основе GPT-4.1 в среднем и превзошел его на более сложном тестовом наборе.
Вывод для бизнеса значителен. «Это означает, что компаниям не нужно зависеть от массивных проприетарных моделей, чтобы оставаться конкурентоспособными», — говорит исследовательская команда. «Они могут развертывать локальные модели, защищать чувствительные данные и все равно получать результаты высшего уровня, постоянно совершенствуя контекст вместо переобучения весов».
По сообщению VentureBeat, технология открывает новые возможности для создания более стабильных и предсказуемых ИИ-агентов, способных к долгосрочному обучению без потери критически важной информации.
