Z-Image Turbo

Всем привет. Модели для генерации изображений развиваются просто с невероятной скоростью и на днях вышла просто потрясающая на мой взгляд модель Z-Image.

Z-Image (и Z-Image Turbo) — 6B-параметр text‑to‑image модель от Alibaba Tongyi Lab с архитектурой Scalable Single‑Stream DiT, где текст и визуальные токены идут в одном потоке, что сильно повышает эффективность.

Turbo‑вариант специально дистиллирован под быстрый рендер на одной видеокарте 16 ГБ с очень малым количеством шагов, при этом модель даёт высокий фотореализм и хорошо держит детали. Независимые сравнения отмечают, что Z-Image даёт очень естественный, «не пластмассовый» реализм, часто более живой по сравнению с излишне «глянцевым» и вылизанным стилем Flux/Wan 2.2 на портретах. Flux Pro/Flux 2 при этом остаётся эталоном максимум-качества, если не ограничиваться одним потребительским GPU.

Отличие от Flux

Архитектура:

Z-Image использует single‑stream DiT (S3‑DiT), где текст, семантические и VAE‑токены обрабатываются одним трансформером, благодаря чему 6B параметров хватает для уровня качества моделей куда крупнее. Flux использует гибрид многоаспектных и параллельных diffusion‑трансформеров плюс flow‑matching, масштабируясь примерно до 12B+ параметров.

Размер и железо:

Z-Image изначально спроектирован для работы на одной 16 ГБ видеокарте с ~8 шагами на инференс, то есть идеально под локальные «домашние» и небольшие продакшн‑сборки. Flux Dev/Pro требует заметно больше ресурсов при локальном запуске, зато даёт запас по качеству и стабильности.

Лицензия и открытость:

Z-Image полностью открыт для локального ресёрча, модификаций и деплоя, без привязки к какому‑то одному сервису. Flux, особенно Pro‑линейка, плотнее завязан на коммерческую инфраструктуру и тарифы, хотя Dev‑варианты доступны как открытые веса.

Классический Workflow использующий модели z_image_turbo_bf16, qwen_3_4b и ae.safetensors

Рыжий пушистый кот сидит на земле рядом с высокой красной кирпичной стеной, кот смотрит прямо в камеру, солнечный день, мягкие естественные тени, реалистичный стиль, высокая детализация шерсти и текстуры кирпича, фотография крупным планом

Селфи фото красивой женщины, она сидит на переднем сиденье автомобиля, держит телефон в вытянутой руке, смотрит в камеру и слегка улыбается, виден интерьер машины и окно сбоку, дневной мягкий свет, реалистичная фотография, высокая детализация лица и салона, натуральные цвета, лёгкое боковое освещение.

Группа людей в уютной комнате празднует Рождество, в центре наряженная рождественская ёлка с гирляндами и игрушками, на столе свечи, подарки и угощения, люди в праздничной одежде смеются, поднимают бокалы и обнимаются, тёплый мягкий свет, атмосферная новогодняя вечеринка, реалистичный фотографический стиль, высокая детализация

Женщина‑учитель физики стоит у классной доски и пишет мелом на зелёной доске знаменитую формулу E=mc2, в руках кусочек белого мела, школьный класс с партами и учебниками на переднем плане, дневной свет из окна, реалистичная фотография, естественные цвета, высокая детализация.

Молодая женщина крупным планом в раздельном купальнике собирает под водой кораллы, между крупными коралловыми образованиями, вокруг насыщенные оранжевые и фиолетовые кораллы, разноцветные рыбки, глубокий синий фон, реалистичная сцена кораллового рифа.

Молодая красивая сексуальная женщина‑андроид без одежды с реалистичной кожей и кибернетическими руками крупным планом стоит на песчаном берегу моря рядом с мужчиной, мужчина держит её за руку, они смотрят на закат, тёплый оранжево‑розовый закат отражается на спокойной воде, лёгкие волны у их ног, небо с мягкими облаками, атмосфера тихой романтики человека и высоких технологий, фотореалистичный стиль, кинематографичное тёплое освещение, высокая детализация

Стильная современная кухня в открытой планировке квартиры, тёмные матовые шкафы, столешница из камня, встроенная техника, рядом обеденный стол, вдоль всей стены большие панорамные окна с видом на ночной город, тёплая подсветка, сочетание уюта и хай‑тек, фотореалистичный интерьер.

Вид со спины на молодую пару, стоящую на палубе яхты, они смотрят на величественный закат. Мужчина в светлой рубашке (рукава закатаны), управляет яхтой, женщина в раздельном купальнике прижимается к нему. Обе фигуры в силуэте против оранжевого и золотого неба, драматичный закат, огромное красивое солнце у горизонта, блики света на воде, волны, романтический момент, профессиональная съемка, высокое качество, детализированная

Workflow генерирующий сразу несколько изображений и использущий те же модели

Профессиональный сноубордист в полёте в половине пайпа, брызги снега вокруг, красный костюм, горы на фоне, ясный солнечный день, экшн-фотография спорта, острая фокусировка на спортсмене, спортивная съёмка высокого качества, динамичная композиция, контрастное освещение

Небоскрёбы центра Нью-Йорка в вечернее время, стеклянные фасады отражают закат, автомобили и жизнь города внизу, огни небоскрёбов загораются, драматичное небо, контрастное городское освещение, профессиональная архитектурная фотография, высочайшее качество, резкий фокус, городская динамика

Изысканное блюдо гастрономического ресторана высокой кухни, микс овощей, мяса и соуса, красиво выложено на тарелке, профессиональное освещение шефа, микрозелень, блюдо выглядит как произведение искусства, макросъёмка, фотография еды высокого качества, пищевая фотография, острая фокусировка, студийное освещение

Лев в африканской саванне, величественный хищник с роскошной гривой, золотистый свет заката позади, напряженный взгляд, шерсть детализирована, реалистичная дикая природа, профессиональная фотография сафари, National Geographic качество, острая фокусировка, естественное освещение

Стильная гостиная в минималистичном стиле, белые стены, паркет из светлого дерева, современная мебель, большие окна с естественным светом, растения, картины на стенах, уютная атмосфера, профессиональная интерьерная фотография, высокое разрешение, теплое освещение, архитектурная съёмка

Workflow использующий gguf модели

Помимо обычной модели которая весит 12Гб, есть ещё квантованная gguf модель z_image_turbo-Q8_0.gguf объемом 7Гб. Ниже вы можете посмотреть сравнения. Слева обычная модель, справа квантованная. Выводы делайте сами

Workflow использующий controlnet для Z-Image

Пока я писал эту статью, для Z-Image прикрутили Controlnet, так что вы можете использовать любые фотографии в качестве референсов и генерировать для них изображения. Всё очень просто — загружаете референсное изображение, выбираете нужный препроцессор: CannyEdge, DepthAnything, или Openpose и генерируете изображение. При этом карта будет сгенерирована автоматически. Если карта у вас уже имеется, вы можете загрузить её в качестве референсного изображения и так же получить результат.

Железный человек в динамичной приземлённой боевой позе, одна нога согнута вперёд, другая на носке, корпус наклонён вперёд, одна рука опирается на колено, другая свободно опущена, мощный металлический костюм с красно‑золотым блеском, эпичный кинематографичный фон, разрушенный футуристический город в дыму и огне, драматическое контровое освещение, реалистичная высокодетализированная фотосъёмка, 8k, action shot

Халк в динамичной низкой боевой позе, одна нога согнута и опирается полной стопой, другая нога на носке, корпус наклонён вперёд, одна массивная рука опирается на колено, другая сжатая в кулак и упирается в землю, напряжённые зелёные мышцы, разорванные фиолетовые шорты, эпичный фон разрушенного города с дымом, огнём и обломками, кинематографичное контровое освещение, реалистичная высокодетализированная фотосъёмка, dramatic action shot, 8k

Универсальный Workflow для Z-Image. Обычная генерация Text to image + ControlNet

Фотореалистичная девушка в коротком белом воздушном платье, на фоне городской улицы, поднимает белое воздушное платье обеими руками, открывая ягодицы и длинные ноги, модные туфли на высоком каблуке, естественное освещение, высококачественная fashion‑фотография

Стройная девушка в коротком сером платье, подол платья вздымается в движении, позирует боком, стиль аниме, яркие чистые цвета, вечерний городской фон с неоновыми вывесками и витринами магазинов, мокрый асфальт, мягкий рассеянный свет, фотореалистичный аниме‑арт, высокое качество, full body

3D‑рендер в стиле реалистичной видеоигры: молодая женщина в строгом сером платье и на высоких каблуках, она стоит в ночном городе на крыше здания, позади панорама небоскрёбов и огней, лёгкий ветер раздувает платье и волосы, детальные материалы ткани и кожи, кинематографический контровый свет, ultra realistic, game cutscene

Таблица основных вариаций Z-Image Turbo

Вариант	Формат / точность	Плюс	Минус
Оригинал HF	FP32 / FP16 / BF16	Максимальное качество	Большие требования к VRAM
Comfy BF16	BF16 (safetensors)	Оптимален для 16–24 ГБ VRAM	Нужны отдельные VAE и текстовый энкодер
FP8 e4m3fn	FP8 e4m3fn	Лучшее качество среди FP8	Чуть тяжелее и медленнее, чем e5m2
FP8 e5m2	FP8 e5m2	Максимальная скорость и экономия VRAM	Чуть больше потерь качества
INT8 SDNQ	INT8	Минимум VRAM, быстрый matmul	Более заметная деградация качества
Turbo AIO	BF16 / FP8 AIO	Всё в одном файле	Менее гибкий вариант для кастомных сборок
Turbo GGUF	GGUF	Подходит для CPU и low‑VRAM сценариев	Ниже качество и сложнее настройка

Ниже названия моделей с размерами и примеры сгенерированных изображений, я не менял seed чтобы можно было сравнивать детали.

А что с 18+

Для любителей генерировать 18+ здесь всё отлично, модель не цензурирована. Примеры генераций по ссылке. Страница под паролем, получить пароль можно подписавшись на наш Telegram канал.

Галерея цифрового искусства