NVIDIA выпустила модели Alpamayo-R1 и Cosmos для автономного вождения и робототехники
NVIDIA продолжает наращивать своё влияние в мире открытого искусственного интеллекта, выпуская серию моделей и инструментов для исследований в области автономного вождения и робототехники. На конференции NeurIPS компания представила Alpamayo-R1 — первую в отрасли открытую модель рассуждений «зрение-язык-действие» для автономных транспортных средств.
Alpamayo-R1: революция в автономном вождении
NVIDIA DRIVE Alpamayo-R1 (AR1) представляет собой прорыв в области автономного вождения, интегрируя цепочку рассуждений ИИ с планированием траектории движения. В отличие от предыдущих моделей, которые испытывали трудности со сложными дорожными сценариями, AR1 использует рассуждения для принятия решений, более приближенных к человеческим.
Модель работает, анализируя сценарий и последовательно обдумывая каждый шаг. Она рассматривает все возможные траектории и использует контекстные данные для выбора оптимального маршрута. Например, в районе с интенсивным пешеходным движением рядом с велосипедной полосой AR1 может обработать данные своего пути, включить трассировку рассуждений и использовать эту информацию для планирования будущей траектории — например, отъехать от велосипедной полосы или остановиться для потенциальных пешеходов, переходящих дорогу в неположенном месте.
Открытая основа AR1, построенная на NVIDIA Cosmos Reason, позволяет исследователям настраивать модель для своих некоммерческих случаев использования, будь то бенчмаркинг или создание экспериментальных приложений для автономных транспортных средств.

Появление открытых моделей рассуждений для автономного вождения — это тот самый момент, когда академические исследования могут реально повлиять на развитие коммерческих систем. Интересно наблюдать, как NVIDIA, традиционно ориентированная на коммерческие решения, теперь активно инвестирует в открытый исходный код — возможно, это стратегический ход для создания экосистемы вокруг своих аппаратных решений.
Cosmos: платформа для физического ИИ
Разработчики могут изучать использование и дообучение моделей на основе Cosmos с помощью пошаговых рецептов, примеров быстрого запуска и расширенных рабочих процессов пост-обучения, теперь доступных в Cosmos Cookbook. Это комплексное руководство для разработчиков физического ИИ, которое охватывает каждый этап разработки ИИ, включая курацию данных, генерацию синтетических данных и оценку моделей.
Среди последних примеров применения Cosmos:
- LidarGen — первая модель мира, способная генерировать данные лидара для симуляции автономных транспортных средств.
- Omniverse NuRec Fixer — модель для симуляции автономных транспортных средств и робототехники, которая использует NVIDIA Cosmos Predict для почти мгновенного устранения артефактов в нейронно реконструированных данных.
- Cosmos Policy — фреймворк для превращения больших предварительно обученных видео-моделей в надежные политики роботов.
- ProtoMotions3 — открытый фреймворк с ускорением на GPU, построенный на NVIDIA Newton и Isaac Lab для обучения физически симулированных цифровых людей и человекоподобных роботов.

Модели политик можно обучать в NVIDIA Isaac Lab и Isaac Sim, а данные, сгенерированные из моделей политик, затем можно использовать для пост-обучения моделей NVIDIA GR00T N для робототехники.
Расширение инструментария цифрового ИИ
NVIDIA также выпускает новые модели речевого ИИ с несколькими спикерами, новую модель с возможностями рассуждений и наборы данных для безопасности ИИ, а также открытые инструменты для генерации высококачественных синтетических наборов данных для обучения с подкреплением и настройки моделей для конкретных областей.
Среди новых инструментов:
- MultiTalker Parakeet — модель автоматического распознавания речи для потокового аудио, способная понимать нескольких спикеров даже в перекрывающихся или быстрых разговорах.
- Sortformer — передовая модель, способная точно диаризовать (определять, кто говорит) в реальном времени.
Инициативы NVIDIA по открытому исходному коду получили признание в новом Индексе открытости от Artificial Analysis, независимой организации, занимающейся бенчмаркингом ИИ. Индекс оценивает семейство открытых технологий NVIDIA Nemotron как одно из самых открытых в экосистеме ИИ на основе допустимости лицензий моделей, прозрачности данных и доступности технических деталей.
По материалам NVIDIA Blog.
