Featured image for issledovateli predlagayut ne schitat ii generatory video mirovymi modelyami

Исследователи предлагают не считать ИИ-генераторы видео «мировыми моделями»

Международная группа исследователей из Пекинского университета, Университета Сингапура и компании Kuaishou Technology представила проект OpenWorldLib, призванный внести ясность в одно из самых размытых понятий современной индустрии — «модель мира». Как сообщает The Decoder, авторы работы предложили строгую классификацию, которая лишает статуса мировых моделей популярные нейросети вроде Sora от OpenAI.

Согласно предложенному фреймворку, настоящая модель мира обязана не просто генерировать визуальный контент, а активно взаимодействовать с окружением, обладая механизмами восприятия, обратной связи и долгосрочной памяти. В этом контексте видеогенераторы оказываются лишь инструментами пассивного предсказания пикселей, лишенными понимания физических причинно-следственных связей, которые возникают только в процессе действия.

Критерии исключения: почему Sora и Veo остались за бортом

Исследователи подчеркивают, что умение рисовать физически правдоподобные кадры не эквивалентно пониманию устройства реальности. В то время как маркетинговые отделы техгигантов называют свои продукты «симуляторами мира», научное сообщество указывает на отсутствие критического компонента — замкнутого цикла обратной связи. Модель, создающая видео по текстовому описанию, не воспринимает среду и не может влиять на нее, что выводит такие системы за рамки определения world models.

Помимо текстово-видео моделей, под сокращение попали генераторы аватаров и системы написания кода. Авторы работы солидарны с позицией главного ИИ-ученого Meta* Яна Лекуна, который давно называет нынешний подход к видеогенерации тупиковым путем для создания полноценного интеллекта. Для настоящего понимания физики объекту требуется не созерцание, а манипуляция объектами в пространстве.

Архитектура OpenWorldLib и пять столпов реальности

Для систематизации разработки ученые выпустили OpenWorldLib — открытую библиотеку, объединяющую ключевые задачи в единый конвейер. Структура проекта опирается на пять функциональных модулей:

  • Оператор: преобразует мультимодальные данные (текст, сенсоры, изображения) в единый формат.
  • Синтез: отвечает за генерацию откликов, включая видео и команды управления.
  • Рассуждение: анализирует пространственные и причинно-следственные связи.
  • Репрезентация: создает 3D-реконструкции и симуляционные среды.
  • Память: хранит историю взаимодействий для обеспечения логической связности действий.

В ходе тестирования на ускорителях Nvidia H200 лучшие результаты в интерактивной генерации видео показала модель Hunyuan-WorldPlay, продемонстрировавшая высокую четкость при навигации в пространстве. В задачах со сложным пользовательским вводом лидером стала система Cosmos от Nvidia, хотя даже она сталкивается с проблемами при резкой смене ракурсов в 3D-сценах.

Попытка упаковать сложную физику мира в последовательность токенов напоминает попытку описать вкус яблока через двоичный код — математически возможно, но бесконечно далеко от реальности. Текущие архитектуры, запертые в рамках трансформеров, заставляют нас тратить колоссальные вычислительные мощности на предсказание следующего пикселя вместо понимания сути движения. Пока мы не сменим чистую генерацию на интерактивное обучение в 3D-симуляторах, наши «модели мира» будут оставаться лишь дорогими цифровыми галлюцинациями с красивой картинкой. Настоящий интеллект начинается там, где заканчивается пассивный экран.

Аппаратный тупик и перспективы индустрии

Особое внимание в работе уделено критике современного железа. Исследователи отмечают, что существующие чипы оптимизированы для обработки отдельных токенов, что крайне неэффективно для задач восприятия целых видеокадров. Для развития настоящих моделей мира может потребоваться отказ от доминирующей архитектуры Transformer в пользу решений, способных обрабатывать данные более целостно и энергоэффективно.

Несмотря на скепсис в отношении текущих достижений, авторы видят потенциал в моделях вроде Bagel, которые сочетают мультимодальные рассуждения с генерацией. Это доказывает, что языковые модели, обученные на огромных массивах данных, могут служить фундаментом, но для постройки полноценной модели мира индустрии придется выйти за пределы привычного предсказания следующего слова или кадра.

*Meta признана экстремистской и запрещена в РФ

Похожие записи