Z-Image Base

Всем привет!
Совсем недавно вышла новая модель Z-Image Base. В отличие от Z-Image Turbo, которая сделана с упором на скорость, Z-Image — это полноразмерный, недистиллированный трансформер для максимального качества, разнообразия и точного следования промпту.

Она умеет генерировать в широком диапазоне стилей: от фотореализма и киношного digital art до аниме и иллюстраций, разработчики заявляют высокую вариативность между seed’ами — лица, композиции и свет реально отличаются. Полноценный CFG и отличная работа с negative prompt, отличная база для LoRA, ControlNet и других экспериментов

Ссылки на Workflow, на модели а так же на официальные страницы в GitHub, Huggingface и Modelscope удобно представлены на странице ComfyUI

Ниже рабочий workflow, примеры генераций и сравнение с Z-Image Turbo, а вот в этой статье мы сравним её с самыми последними моделями: Z-Image Turbo, Qwen 2512, Flux2 Kontext и платными моделями Nano Banana

z-image-base-workflow
				
					Стильная корейская девушка с узкими бёдрами в sweet-cool эстетике, длинные густые чёрные прямые волосы. Аккуратная белая рубашка, чёрно-серая клетчатая плисированая миниюбка со складками. Селфи в зеркале коридора внутри современного интерьера, поза в пол-оборота, iPhone в прозрачном чехле Hello Kitty, другая рука играет с локоном волос. Светлая бежевая стена, деревянный пол, размытая мебель на фоне. Мягкое рассеянное освещение, акцент на текстуры ткани и волосы, высокая чёткость, модная фотосъёмка, квадратный кадр 1:1, спокойное, стильное настроение.
				
			
				
					A group of five people sitting around a large wooden table in a cozy café. Each person has a clearly different age, ethnicity, hairstyle, and clothing style. Natural poses, different facial expressions, realistic body proportions, soft daylight coming from a side window, detailed interior, photorealistic style.
				
			

Модели часто повторяют лица и пропорции. Тестируется разнообразие персонажей, удержание индивидуальности и отсутствие «клонов».

				
					A woman pouring tea from a ceramic teapot into a small cup while holding a smartphone in her other hand. Natural finger positions, realistic hand anatomy, correct grip, soft indoor lighting, close-up composition, high detail, photorealism.
				
			

Руки и взаимодействие с объектами — слабое место многих моделей. Проверяется анатомия пальцев и отсутствие лишних элементов.

				
					A small street café with a clearly readable sign that says “кафе” in Cyrillic letters. The sign is centered above the entrance, clean typography, no distorted or extra letters. Daylight, realistic street photography.
				
			

Генерация читаемого текста и контроль букв — частая проблема у генеративных моделей.

				
					Photorealistic portrait of a woman standing by a window at sunset. Strong backlight from the sun, soft reflected light on the face, realistic skin tones, subtle lens flare, cinematic lighting.
				
			

Сложный баланс света и тени, сохранение деталей лица при ярком источнике света позади.

				
					Ultra-realistic close-up portrait of a young woman, visible skin texture, pores, natural imperfections, realistic eyes with reflections, soft studio lighting, 85mm lens look.
				
			
Многие модели «запластиковывают» лица. Проверяется микродетализация и натуральность.
				
					A person standing on a cliff overlooking a vast futuristic city far below. Strong sense of depth, realistic scale between foreground and background, atmospheric haze, cinematic wide-angle shot.
				
			

Часто ломается перспектива и масштаб. Видно, понимает ли модель пространственные отношения.

				
					A realistic city street during daytime, but giant floating jellyfish drift slowly between the buildings. Natural lighting, believable shadows, realistic integration of fantastic elements.
				
			

Сложно органично встроить фантастический объект в реалистичную сцену без ощущения коллажа.

				
					A busy urban crosswalk during rain, people walking in different directions, umbrellas, motion blur on legs, reflections on wet asphalt, candid street photography style.
				
			

Много объектов + движение. Проверяется контроль сцены без визуального хаоса.