Всем привет. Модели для генерации изображений развиваются просто с невероятной скоростью и на днях вышла просто потрясающая на мой взгляд модель Z-Image.
Z-Image (и Z-Image Turbo) — 6B-параметр text‑to‑image модель от Alibaba Tongyi Lab с архитектурой Scalable Single‑Stream DiT, где текст и визуальные токены идут в одном потоке, что сильно повышает эффективность.
Turbo‑вариант специально дистиллирован под быстрый рендер на одной видеокарте 16 ГБ с очень малым количеством шагов, при этом модель даёт высокий фотореализм и хорошо держит детали. Независимые сравнения отмечают, что Z-Image даёт очень естественный, «не пластмассовый» реализм, часто более живой по сравнению с излишне «глянцевым» и вылизанным стилем Flux/Wan 2.2 на портретах. Flux Pro/Flux 2 при этом остаётся эталоном максимум-качества, если не ограничиваться одним потребительским GPU.
Отличие от Flux
Архитектура:
Z-Image использует single‑stream DiT (S3‑DiT), где текст, семантические и VAE‑токены обрабатываются одним трансформером, благодаря чему 6B параметров хватает для уровня качества моделей куда крупнее. Flux использует гибрид многоаспектных и параллельных diffusion‑трансформеров плюс flow‑matching, масштабируясь примерно до 12B+ параметров.
Размер и железо:
Z-Image изначально спроектирован для работы на одной 16 ГБ видеокарте с ~8 шагами на инференс, то есть идеально под локальные «домашние» и небольшие продакшн‑сборки. Flux Dev/Pro требует заметно больше ресурсов при локальном запуске, зато даёт запас по качеству и стабильности.
Лицензия и открытость:
Z-Image полностью открыт для локального ресёрча, модификаций и деплоя, без привязки к какому‑то одному сервису. Flux, особенно Pro‑линейка, плотнее завязан на коммерческую инфраструктуру и тарифы, хотя Dev‑варианты доступны как открытые веса.
Классический Workflow использующий модели z_image_turbo_bf16, qwen_3_4b и ae.safetensors
Workflow генерирующий сразу несколько изображений и использущий те же модели
Workflow использующий gguf модели
Помимо обычной модели которая весит 12Гб, есть ещё квантованная gguf модель z_image_turbo-Q8_0.gguf объемом 7Гб. Ниже вы можете посмотреть сравнения. Слева обычная модель, справа квантованная. Выводы делайте сами


Workflow использующий controlnet для Z-Image
Пока я писал эту статью, для Z-Image прикрутили Controlnet, так что вы можете использовать любые фотографии в качестве референсов и генерировать для них изображения. Всё очень просто — загружаете референсное изображение, выбираете нужный препроцессор: CannyEdge, DepthAnything, или Openpose и генерируете изображение. При этом карта будет сгенерирована автоматически. Если карта у вас уже имеется, вы можете загрузить её в качестве референсного изображения и так же получить результат.
Универсальный Workflow для Z-Image. Обычная генерация Text to image + ControlNet
Таблица основных вариаций Z-Image Turbo
| Вариант | Формат / точность | Плюс | Минус |
|---|---|---|---|
| Оригинал HF | FP32 / FP16 / BF16 | Максимальное качество | Большие требования к VRAM |
| Comfy BF16 | BF16 (safetensors) | Оптимален для 16–24 ГБ VRAM | Нужны отдельные VAE и текстовый энкодер |
| FP8 e4m3fn | FP8 e4m3fn | Лучшее качество среди FP8 | Чуть тяжелее и медленнее, чем e5m2 |
| FP8 e5m2 | FP8 e5m2 | Максимальная скорость и экономия VRAM | Чуть больше потерь качества |
| INT8 SDNQ | INT8 | Минимум VRAM, быстрый matmul | Более заметная деградация качества |
| Turbo AIO | BF16 / FP8 AIO | Всё в одном файле | Менее гибкий вариант для кастомных сборок |
| Turbo GGUF | GGUF | Подходит для CPU и low‑VRAM сценариев | Ниже качество и сложнее настройка |
Ниже названия моделей с размерами и примеры сгенерированных изображений, я не менял seed чтобы можно было сравнивать детали.
А что с 18+
Для любителей генерировать 18+ здесь всё отлично, модель не цензурирована. Примеры генераций по ссылке. Страница под паролем, получить пароль можно подписавшись на наш Telegram канал.

























