Featured image for tolko za pervyj kvartal 2026 goda v modeli mira investirovali 6 mlrd

Только за первый квартал 2026 года в «модели мира» инвестировали $6 млрд

В среде разработчиков робототехники укрепилось убеждение, что физический мир можно «взломать» так же, как лингвистику: достаточно обучить системы на фундаментальных законах реальности, а затем адаптировать их под конкретные задачи. Эта концепция, получившая название «Великая параллель», подразумевает, что модели мира сделают для машин то же самое, что архитектура трансформеров сделала для языка. Как сообщает Tech Times, только в первом квартале 2026 года в этот сектор было инвестировано порядка 6 миллиардов долларов.

Недавний запуск стартапа Omega-EVA и релиз мультимодальной системы Cosmos 3 от компании NVIDIA в начале июня подтверждают стремительный рост интереса к воплощенному ИИ. Однако аналитики из Fusion Fund полагают, что прямая аналогия с большими языковыми моделями (LLM) — это скорее принятие желаемого за действительное, чем реальный план развития. Основная сложность заключается в том, что у физического мира, в отличие от текста, нет универсальной единицы обучения — своего рода «атома» данных.

Разрыв между теорией и реальностью

Модель мира — это система, которая создает внутреннее представление о том, как функционирует окружение, и предсказывает будущие состояния для принятия решений. Это заметный отход от парадигмы VLA (Vision-Language-Action), где визуальные сигналы и команды напрямую переводятся в движения мотора. Проблема VLA в том, что они копируют поведение, но не понимают физику процесса, что делает их бесполезными в незнакомых условиях.

Модели мира обещают научить роботов именно динамике реальности. NVIDIA продемонстрировала это на примере системы DreamZero, которая показала двукратное преимущество в обобщении задач по сравнению с классическими VLA. Тем не менее, эксперты указывают на качественный дефицит данных: если LLM обучались на массивах, эквивалентных 100 000 лет человеческого опыта, то крупнейшие робототехнические наборы данных едва покрывают один год реальной практики.

Слепая вера в то, что видео из интернета заменит роботам тактильный опыт, игнорирует фундаментальную разницу между наблюдением и участием. Мы можем скормить модели петабайты пикселей, но без стандартизированного «физического токена» каждая новая архитектура остается запертой в рамках своих датчиков. Пока индустрия не договорится о едином способе оцифровки взаимодействия, мы будем получать лишь очень дорогие симуляторы, неспособные уверенно открыть даже незнакомую дверь.

Три пути к пониманию физики

На текущий момент в индустрии нет единства относительно того, как именно представлять физическую реальность внутри кода. Исследователи разделились на три лагеря, каждый из которых по-своему распоряжается привлеченным капиталом:

  • Пиксельные модели: предсказывают мир в деталях видеопотока. Они фотореалистичны, но тратят вычислительные мощности на отрисовку текстур древесины вместо того, чтобы фокусироваться на траектории движения.
  • Геометрические модели: приоритезируют структуру и 3D-связи. Стартап World Labs Фей-Фей Ли, получивший 1 миллиард долларов инвестиций, идет именно этим путем, создавая движки для пространственного рендеринга.
  • Латентные модели: отбрасывают все лишнее, представляя мир в виде компактных признаков. Подход Яна Лекуна и его компании AMI Labs эффективен, но страдает от низкой интерпретируемости — сложно понять, почему робот совершил ошибку.

Инвестиционный ландшафт сейчас выглядит как лоскутное одеяло: Physical Intelligence привлекла 600 миллионов долларов на развитие VLA, в то время как другие делают ставку на чистую физику. Из-за избытка капитала у компаний нет стимула к объединению усилий или открытию своих наработок. Это создает ситуацию, когда рынок перенасыщен архитектурами, которые не могут «общаться» друг с другом из-за разницы в форматах данных от датчиков и сенсоров.

В конечном счете успех будет сопутствовать не тем, кто создаст самую элегантную архитектуру, а тем, кто построит замкнутый цикл между разработкой модели и реальным развертыванием на заводах или складах. Монолитные вертикальные компании, владеющие и «железом», и данными, имеют больше шансов выжить в условиях отсутствия универсального стандарта, который когда-то позволил трансформерам захватить мир текстов.

Похожие записи