NVIDIA выпустила Nemotron 3 Nano — компактную эффективную языковую модель для агентов
Если 2025-й был годом ИИ-агентов, то 2026-й готовится стать годом многоагентных систем. Этот скачок требует моделей, способных генерировать огромные объемы токенов, оставаясь при этом легкими и точными. Основная проблема в том, что небольшие модели быстры и дешевы, но им часто не хватает глубины рассуждений и надежности. Крупные модели точны, но слишком медленны и дороги для параллельной работы множества агентов. Именно поиск этого баланса привел NVIDIA к созданию Nemotron 3 Nano 30B A3B, пишет Hugging Face.
Ключевые характеристики модели
Nemotron 3 Nano — это новая компактная, но мощная модель для рассуждений, построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts (MoE) с контекстным окном в 1 миллион токенов. Ее цель — позволить разработчикам создавать высокопроизводительных и надежных агентов.
Модель обладает следующими особенностями:
- Гибридная архитектура Mamba-Transformer MoE: Mamba‑2 для длинного контекста и низкой задержки, комбинированная с трансформерным вниманием для высокой точности.
- 31,6 млрд общих параметров, ~3,6 млрд активных на токен: Оптимизирована для высокой пропускной способности.
- Выдающаяся эффективность вывода: До 4x быстрее, чем Nemotron Nano 2, и до 3,3x быстрее, чем ведущие модели своего класса.
- Контроль рассуждений: Режимы «рассуждения ВКЛ/ВЫКЛ» и настраиваемый бюджет «мысленных» токенов для предсказуемых затрат.
- Полностью открытая модель: Открытые веса, наборы данных, рецепты обучения и фреймворк.
- Открытый стек данных: 3 трлн новых высококачественных токенов для предобучения, 13 млн междисциплинарных примеров для посттренинга.
Архитектура и возможности
Nemotron 3 Nano построена на архитектуре разреженной смеси экспертов (MoE). Из 128 экспертов на каждом проходе активируется только 6, что обеспечивает высокую эффективность. Гибридный стек слоев чередует слои Mamba‑2 и слои трансформера с групповым запросным вниманием (GQA).
Эта комбинация позволяет модели демонстрировать качество рассуждений, сравнимое с гораздо более крупными моделями, сохраняя при этом скорость и стоимость, характерные для легковесных архитектур. Модель предназначена для агентских задач, рассуждений, использования инструментов и чата.

Появление Nemotron 3 Nano — это не просто новая модель, а прямой ответ на реальную инженерную проблему следующего этапа ИИ. Пока все говорят об «агентах», NVIDIA молча решила ключевое уравнение стоимости и производительности. Гибрид Mamba и MoE — это не маркетинговая уловка, а прагматичный инженерный ход. Он превращает модель с 31 млрд параметров в условного «тяжеловеса» с активными 3,6 млрд, что для инференса на GPU означает реальную экономию. Контроль над «бюджетом размышлений» — это гениально. Наконец-то разработчики получают не черный ящик, который может «думать» бесконечно дорого, а инструмент с предсказуемым счетом за облако. В условиях, когда каждый токен на счету, такая прагматика важнее абстрактных тестов.
Обучение и данные
Создание модели включало многоэтапный процесс: масштабное предобучение, специализированное контролируемое тонкое обучение (SFT) и продвинутые методы обучения с подкреплением.
Предобучение проходило на корпусе в 25 триллионов токенов, включая 2,5 трлн новых токенов из Common Crawl. Стратегия состояла из двух фаз: фазы разнообразия (первые 94% данных) для максимального охвата и обобщения, и фазы качества (последние 6%) с использованием высококачественных источников, таких как Wikipedia, для повышения точности.
Расширение контекста до 1 миллиона токенов было достигнуто с помощью дополнительного этапа непрерывного предобучения (CPT) на последовательностях длиной 512k токенов. Сочетание обучения на последовательностях разной длины позволило сохранить высокие результаты на коротких бенчмарках, одновременно расширяя возможности работы с длинным контекстом.

Заключение
Nemotron 3 Nano позиционируется как новый стандарт для эффективных, открытых и интеллектуальных агентских моделей. Ее архитектура, набор данных и инструменты контроля делают ее серьезным претендентом для разработчиков, строящих сложные многоагентные системы, где важны как качество рассуждений, так и экономическая эффективность. Модель доступна для развертывания через популярные фреймворки, такие как vLLM и SGLang, и распространяется по открытой лицензии NVIDIA.
