Featured image for deepmind predskazyvaet revolyutsiyu video modelej v kompyuternom zrenii

DeepMind предсказывает революцию видео-моделей в компьютерном зрении

Исследователи Google DeepMind заявляют, что видео-модели нового поколения способны совершить для компьютерного зрения то же, что языковые модели сделали для обработки текста. Их разработка Veo 3 демонстрирует впечатляющие возможности в решении разнообразных визуальных задач без дополнительного обучения.

Единая модель вместо специализированных решений

В отличие от традиционного подхода, где для каждой задачи компьютерного зрения требуется отдельная модель, DeepMind предлагает концепцию универсального видео-фундамента. Veo 3 принимает текстовые промпты и входное изображение, генерируя восьмисекундное видео в разрешении 720p с частотой 24 кадра в секунду.

Модель демонстрирует способности в:

  • Стандартных задачах восприятия: обнаружение границ, сегментация, супер-разрешение
  • Сложных визуальных вызовах: иллюзия далматина, пятна Роршаха
  • Физическом моделировании: плавучесть, сопротивление воздуха, отражения
  • Манипуляции изображениями: удаление фона, перекрашивание объектов

Визуальное мышление и ограничения

Наиболее впечатляющим аспектом Veo 3 является способность к визуальному рассуждению. Модель решает лабиринты, идентифицирует симметрии, сортирует числа и даже справляется с простыми судоку, используя только изображения и текстовые промпты. Исследователи называют этот процесс «цепочка кадров» — визуальным аналогом цепочки рассуждений в языковых моделях.

Однако команда признает, что Veo 3 пока не догнала ведущие специализированные модели, такие как SAMv2 от Meta*. Также существует проблема «черного ящика» — в некоторых случаях, например с судоку, исследователи подозревают, что задачу решает LLM в промпт-рирайтере, а не сама видео-модель.

Идея единой видео-модели для всех визуальных задач звучит заманчиво, но напоминает ранние обещания AGI. Технически впечатляет, но практическая ценность пока под вопросом — специализированные модели всё равно будут доминировать в production-средах ещё несколько лет. Особенно забавно выглядит использование LLM для улучшения промптов — получается, что для продвижения видео-ИИ всё равно нужны текстовые модели.

Философское противостояние подходов

В то время как DeepMind видит будущее в генеративных мировых моделях, глава AI Meta* Ян Лекун считает этот подход тупиковым. Он предпочитает архитектуры с физическим пониманием и контролем роботов, такие как V-JEPA 2.

Это фундаментальное расхождение в подходах отражает более глубокий спор в сообществе ИИ: должны ли модели учиться генерации целых миров или достаточно предсказания следующих кадров с физической достоверностью.

Несмотря на разногласия, прогресс Veo 3 за последние шесть месяцев впечатляет. Модель значительно превзошла своего предшественника Veo 2 и на некоторых задачах сравнялась со специализированными решениями. Исследователи ожидают, что дальнейшее обучение с подкреплением и тонкая настройка улучшат результаты, как это было с ранними LLM.

По материалам The Decoder

* Meta (признана экстремистской и запрещена в РФ)

Похожие записи