NVIDIA Nemotron 3 Nano — эффективная модель для ИИ-агентов

Если 2025-й был годом ИИ-агентов, то 2026-й готовится стать годом многоагентных систем. Этот скачок требует моделей, способных генерировать огромные объемы токенов, оставаясь при этом легкими и точными. Основная проблема в том, что небольшие модели быстры и дешевы, но им часто не хватает глубины рассуждений и надежности. Крупные модели точны, но слишком медленны и дороги для параллельной работы множества агентов. Именно поиск этого баланса привел NVIDIA к созданию Nemotron 3 Nano 30B A3B, пишет Hugging Face.

Ключевые характеристики модели

Nemotron 3 Nano — это новая компактная, но мощная модель для рассуждений, построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts (MoE) с контекстным окном в 1 миллион токенов. Ее цель — позволить разработчикам создавать высокопроизводительных и надежных агентов.

Модель обладает следующими особенностями:

Гибридная архитектура Mamba-Transformer MoE: Mamba‑2 для длинного контекста и низкой задержки, комбинированная с трансформерным вниманием для высокой точности.
31,6 млрд общих параметров, ~3,6 млрд активных на токен: Оптимизирована для высокой пропускной способности.
Выдающаяся эффективность вывода: До 4x быстрее, чем Nemotron Nano 2, и до 3,3x быстрее, чем ведущие модели своего класса.
Контроль рассуждений: Режимы «рассуждения ВКЛ/ВЫКЛ» и настраиваемый бюджет «мысленных» токенов для предсказуемых затрат.
Полностью открытая модель: Открытые веса, наборы данных, рецепты обучения и фреймворк.
Открытый стек данных: 3 трлн новых высококачественных токенов для предобучения, 13 млн междисциплинарных примеров для посттренинга.

Архитектура и возможности

Nemotron 3 Nano построена на архитектуре разреженной смеси экспертов (MoE). Из 128 экспертов на каждом проходе активируется только 6, что обеспечивает высокую эффективность. Гибридный стек слоев чередует слои Mamba‑2 и слои трансформера с групповым запросным вниманием (GQA).

Эта комбинация позволяет модели демонстрировать качество рассуждений, сравнимое с гораздо более крупными моделями, сохраняя при этом скорость и стоимость, характерные для легковесных архитектур. Модель предназначена для агентских задач, рассуждений, использования инструментов и чата.

Диаграмма сравнения производительности Nemotron 3 Nano с моделями Qwen3-30B и GPT-OSS-20B — Источник: huggingface.co

Появление Nemotron 3 Nano — это не просто новая модель, а прямой ответ на реальную инженерную проблему следующего этапа ИИ. Пока все говорят об «агентах», NVIDIA молча решила ключевое уравнение стоимости и производительности. Гибрид Mamba и MoE — это не маркетинговая уловка, а прагматичный инженерный ход. Он превращает модель с 31 млрд параметров в условного «тяжеловеса» с активными 3,6 млрд, что для инференса на GPU означает реальную экономию. Контроль над «бюджетом размышлений» — это гениально. Наконец-то разработчики получают не черный ящик, который может «думать» бесконечно дорого, а инструмент с предсказуемым счетом за облако. В условиях, когда каждый токен на счету, такая прагматика важнее абстрактных тестов.

Обучение и данные

Создание модели включало многоэтапный процесс: масштабное предобучение, специализированное контролируемое тонкое обучение (SFT) и продвинутые методы обучения с подкреплением.

Предобучение проходило на корпусе в 25 триллионов токенов, включая 2,5 трлн новых токенов из Common Crawl. Стратегия состояла из двух фаз: фазы разнообразия (первые 94% данных) для максимального охвата и обобщения, и фазы качества (последние 6%) с использованием высококачественных источников, таких как Wikipedia, для повышения точности.

Расширение контекста до 1 миллиона токенов было достигнуто с помощью дополнительного этапа непрерывного предобучения (CPT) на последовательностях длиной 512k токенов. Сочетание обучения на последовательностях разной длины позволило сохранить высокие результаты на коротких бенчмарках, одновременно расширяя возможности работы с длинным контекстом.

Схема гибридной архитектуры Mamba-Transformer модели Nemotron 3 Nano от NVIDIA — Источник: huggingface.co

Заключение

Nemotron 3 Nano позиционируется как новый стандарт для эффективных, открытых и интеллектуальных агентских моделей. Ее архитектура, набор данных и инструменты контроля делают ее серьезным претендентом для разработчиков, строящих сложные многоагентные системы, где важны как качество рассуждений, так и экономическая эффективность. Модель доступна для развертывания через популярные фреймворки, такие как vLLM и SGLang, и распространяется по открытой лицензии NVIDIA.

NVIDIA выпустила Nemotron 3 Nano — компактную эффективную языковую модель для агентов

Ключевые характеристики модели

Архитектура и возможности

Обучение и данные

Заключение

Google Cloud представила рецепт ускоренного инференса LLM с NVIDIA Dynamo

ИИ трансформирует маркетинг: как Chime перестраивает работу отделов

Amazon требует от Perplexity убрать AI-агента из своего магазина

Сквозная аналитика маркетинга с ИИ: полное руководство

Исследование: рассуждения LLM — это иллюзия, а не логика

Семантический поиск повышает точность ИИ-агентов для программирования на 12,5%

Ключевые характеристики модели

Архитектура и возможности

Обучение и данные

Заключение

Похожие записи