Featured image for qwen image i2l model kotoraya generiruet adaptery lora iz izobrazhenij za odin prohod

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Что, если бы обучение персонального стиля для диффузионной модели занимало не часы на GPU, а доли секунды? Команда DiffSynth-Studio из сообщества ModelScope представила Qwen-Image-i2L — модель, которая решает именно эту задачу. Она берет на вход изображение и на выходе выдает готовые веса адаптера LoRA, полностью заменяя традиционный процесс тонкой настройки. По сообщению Hugging Face, это первая попытка создать end-to-end «Image-to-LoRA» систему.

Технический подход: от амбиций к архитектуре

Идея кажется дерзкой, но логичной. Если изображения можно превратить в LoRA-веса путем долгого обучения, почему бы не научить нейросеть делать это напрямую? Проблема в том, что LoRA-веса — это не просто вектор, а набор высокоразмерных тензоров, каждый из которых отвечает за свою часть модели. Первоначальные эксперименты с классическим трансформером, который пытался предсказать эти тензоры как последовательность, провалились: модель вырождалась в генерацию одного и того же усредненного LoRA, независимо от входной картинки.

Ключевым инсайтом стало понимание, что каждый тензор в LoRA должен обрабатываться независимо. Простое решение — использовать отдельные полносвязные слои для каждого тензора — вело к взрывному росту параметров. Команда нашла компромисс: двухслойные полносвязные сети с уменьшенной размерностью скрытого слоя.

Идея гениальна в своей простоте: зачем тратить ресурсы на обучение с нуля, если можно научить одну модель предсказывать результат этого обучения? Это как сжать многодневный мастер-класс по живописи в один щелчок фотоаппарата. Правда, пока фотоаппарат снимает скорее жанровую сцену, а не портрет — стиль он улавливает отлично, а вот конкретное содержание изображения запоминает плохо.

Архитектурный пазл и обучение

Чтобы компенсировать возможные потери в обобщающей способности из-за облегченной архитектуры, на вход модели подаются эмбеддинги сразу от нескольких мощных кодировщиков изображений: SigLIP2, DINOv2 и Qwen-VL.

Графическая иллюстрация проблемы экспоненциального роста числа параметров в нейросетях
Источник: www.huggingface.co

Финальная архитектура представляет собой комбинацию этих энкодеров и набора двухслойных сетей для каждого выходного тензора LoRA.

Обучение проводилось на фреймворке DiffSynth-Studio с использованием техники двухэтапного раздельного обучения для экономии VRAM. Модель Qwen-Image-i2L-Style с 2.4 миллиардами параметров (без учета энкодеров) тренировалась две недели на восьми GPU A100 на пазловом датасете из миллиона изображений, собранном из EliGen, JourneyDB, LAION и самостоятельно сгенерированного набора данных.

Что умеет модель: стиль вместо персонажа

Первая версия модели, как выяснилось, обладает интересным свойством: она плохо запоминает конкретное содержание изображения (например, лицо определенного человека или точную породу кошки), но блестяще извлекает стиль.

Это делает её идеальным инструментом для быстрого создания стилевых LoRA. Пользователь загружает референс — и через мгновение получает адаптер, который можно применить к Stable Diffusion для генерации изображений в той же художественной манере.

Команда отмечает, что код обучения пока не опубликован, но обещает выложить его позже. Уже сейчас модель доступна для тестирования на ModelScope.

Иллюстрация проблем проектирования архитектуры нейросети
Источник: www.huggingface.co

Это исследование — важный шаг к мгновенной персонализации генеративных моделей. Пока система справляется в основном со стилями, но сам факт существования работающего «Image-to-LoRA» открывает дорогу для более сложных задач, вроде точного копирования объектов или лиц. Главный вопрос теперь — смогут ли последующие итерации преодолеть разрыв между стилем и семантикой, или же мы получили специализированный, но чрезвычайно полезный инструмент для дизайнеров и художников.

Похожие записи