DeepMind предсказывает революцию видео-моделей в компьютерном зрении
Исследователи Google DeepMind заявляют, что видео-модели нового поколения способны совершить для компьютерного зрения то же, что языковые модели сделали для обработки текста. Их разработка Veo 3 демонстрирует впечатляющие возможности в решении разнообразных визуальных задач без дополнительного обучения.
Единая модель вместо специализированных решений
В отличие от традиционного подхода, где для каждой задачи компьютерного зрения требуется отдельная модель, DeepMind предлагает концепцию универсального видео-фундамента. Veo 3 принимает текстовые промпты и входное изображение, генерируя восьмисекундное видео в разрешении 720p с частотой 24 кадра в секунду.
Модель демонстрирует способности в:
- Стандартных задачах восприятия: обнаружение границ, сегментация, супер-разрешение
- Сложных визуальных вызовах: иллюзия далматина, пятна Роршаха
- Физическом моделировании: плавучесть, сопротивление воздуха, отражения
- Манипуляции изображениями: удаление фона, перекрашивание объектов
Визуальное мышление и ограничения
Наиболее впечатляющим аспектом Veo 3 является способность к визуальному рассуждению. Модель решает лабиринты, идентифицирует симметрии, сортирует числа и даже справляется с простыми судоку, используя только изображения и текстовые промпты. Исследователи называют этот процесс «цепочка кадров» — визуальным аналогом цепочки рассуждений в языковых моделях.
Однако команда признает, что Veo 3 пока не догнала ведущие специализированные модели, такие как SAMv2 от Meta*. Также существует проблема «черного ящика» — в некоторых случаях, например с судоку, исследователи подозревают, что задачу решает LLM в промпт-рирайтере, а не сама видео-модель.
Идея единой видео-модели для всех визуальных задач звучит заманчиво, но напоминает ранние обещания AGI. Технически впечатляет, но практическая ценность пока под вопросом — специализированные модели всё равно будут доминировать в production-средах ещё несколько лет. Особенно забавно выглядит использование LLM для улучшения промптов — получается, что для продвижения видео-ИИ всё равно нужны текстовые модели.
Философское противостояние подходов
В то время как DeepMind видит будущее в генеративных мировых моделях, глава AI Meta* Ян Лекун считает этот подход тупиковым. Он предпочитает архитектуры с физическим пониманием и контролем роботов, такие как V-JEPA 2.
Это фундаментальное расхождение в подходах отражает более глубокий спор в сообществе ИИ: должны ли модели учиться генерации целых миров или достаточно предсказания следующих кадров с физической достоверностью.
Несмотря на разногласия, прогресс Veo 3 за последние шесть месяцев впечатляет. Модель значительно превзошла своего предшественника Veo 2 и на некоторых задачах сравнялась со специализированными решениями. Исследователи ожидают, что дальнейшее обучение с подкреплением и тонкая настройка улучшат результаты, как это было с ранними LLM.
По материалам The Decoder
* Meta (признана экстремистской и запрещена в РФ)
