Z-Image Turbo

Всем привет. Модели для генерации изображений развиваются просто с невероятной скоростью и на днях вышла просто потрясающая на мой взгляд модель Z-Image.

Z-Image (и Z-Image Turbo) — 6B-параметр text‑to‑image модель от Alibaba Tongyi Lab с архитектурой Scalable Single‑Stream DiT, где текст и визуальные токены идут в одном потоке, что сильно повышает эффективность.

Turbo‑вариант специально дистиллирован под быстрый рендер на одной видеокарте 16 ГБ с очень малым количеством шагов, при этом модель даёт высокий фотореализм и хорошо держит детали. Независимые сравнения отмечают, что Z-Image даёт очень естественный, «не пластмассовый» реализм, часто более живой по сравнению с излишне «глянцевым» и вылизанным стилем Flux/Wan 2.2 на портретах. Flux Pro/Flux 2 при этом остаётся эталоном максимум-качества, если не ограничиваться одним потребительским GPU.​

Отличие от Flux

Архитектура:

Z-Image использует single‑stream DiT (S3‑DiT), где текст, семантические и VAE‑токены обрабатываются одним трансформером, благодаря чему 6B параметров хватает для уровня качества моделей куда крупнее. Flux использует гибрид многоаспектных и параллельных diffusion‑трансформеров плюс flow‑matching, масштабируясь примерно до 12B+ параметров.​

Размер и железо:

Z-Image изначально спроектирован для работы на одной 16 ГБ видеокарте с ~8 шагами на инференс, то есть идеально под локальные «домашние» и небольшие продакшн‑сборки. Flux Dev/Pro требует заметно больше ресурсов при локальном запуске, зато даёт запас по качеству и стабильности.​

Лицензия и открытость:

Z-Image полностью открыт для локального ресёрча, модификаций и деплоя, без привязки к какому‑то одному сервису. Flux, особенно Pro‑линейка, плотнее завязан на коммерческую инфраструктуру и тарифы, хотя Dev‑варианты доступны как открытые веса.

Классический Workflow использующий модели z_image_turbo_bf16, qwen_3_4b и ae.safetensors
Workflow генерирующий сразу несколько изображений и использущий те же модели
Workflow использующий gguf модели

Помимо обычной модели которая весит 12Гб, есть ещё квантованная gguf модель z_image_turbo-Q8_0.gguf объемом 7Гб. Ниже вы можете посмотреть сравнения. Слева обычная модель, справа квантованная. Выводы делайте сами

ComfyUI_00542_ComfyUI_00576_
ComfyUI_00574_ComfyUI_00578_
Workflow использующий controlnet для Z-Image

Пока я писал эту статью, для Z-Image прикрутили Controlnet, так что вы можете использовать любые фотографии в качестве референсов и генерировать для них изображения. Всё очень просто — загружаете референсное изображение, выбираете нужный препроцессор: CannyEdge, DepthAnything, или Openpose и генерируете изображение. При этом карта будет сгенерирована автоматически. Если карта у вас уже имеется, вы можете загрузить её в качестве референсного изображения и так же получить результат.

Универсальный Workflow для Z-Image. Обычная генерация Text to image + ControlNet
Таблица основных вариаций Z-Image Turbo
ВариантФормат / точностьПлюсМинус
Оригинал HFFP32 / FP16 / BF16Максимальное качествоБольшие требования к VRAM
Comfy BF16BF16 (safetensors)Оптимален для 16–24 ГБ VRAMНужны отдельные VAE и текстовый энкодер
FP8 e4m3fnFP8 e4m3fnЛучшее качество среди FP8Чуть тяжелее и медленнее, чем e5m2
FP8 e5m2FP8 e5m2Максимальная скорость и экономия VRAMЧуть больше потерь качества
INT8 SDNQINT8Минимум VRAM, быстрый matmulБолее заметная деградация качества
Turbo AIOBF16 / FP8 AIOВсё в одном файлеМенее гибкий вариант для кастомных сборок
Turbo GGUFGGUFПодходит для CPU и low‑VRAM сценариевНиже качество и сложнее настройка

Ниже названия моделей с размерами и примеры сгенерированных изображений, я не менял seed чтобы можно было сравнивать детали.

А что с 18+

Для любителей генерировать 18+ здесь всё отлично, модель не цензурирована. Примеры генераций по ссылке. Страница под паролем, получить пароль можно подписавшись на наш Telegram канал.