Flux 2 Klein vs Qwen Image 2512 vs Z-Image Turbo

Всем привет! Сегодня проведём практический тест трёх моделей генерации изображений — Flux 2 Klein, Qwen Image 2512 и Z‑Image  — прямо в ComfyUI, чтобы понять, чем они реально отличаются в одинаковых условиях. Мы прогоним одну и ту же серию промтов, зафиксируем seed/настройки (насколько это возможно) и посмотрим, какая модель лучше справляется с задачами “из жизни”, а не только с красивыми демками.

Что именно будем проверять

  • Следование промту: насколько точно модель выполняет требования (объекты, запреты, порядок, детали).
  • Фотореализм и материалы: стекло/вода/металл, микротекстуры, свет и тени.
  • Анатомия и взаимодействия: руки, пальцы, контакт предметов, две фигуры в кадре.
  • Геометрия и перспектива: интерьеры, “вертикали”, широкоугольные сцены, отражения в зеркалах.
  • Текст в кадре: читабельность, кириллица/латиница, мелкий кегль, многострочный текст и верстка.

Как будем сравнивать

Мы поставим перед моделями ряд сложных задач. На каждую генерацию у модели будет только одна попытка и разберём, где появляются типовые артефакты: искажения текста, “ломающиеся” руки, неверное количество объектов, грязные текстуры, проблемы с отражениями и т.п.

Ниже будет промт и пояснение что мы будем тестировать с помощью данного промта, а выводы вы сможете сделать сами.

Мелкий текст + смешение языков

A close-up photo of a street food stall menu board. The board has three sections with perfectly readable text:
«БУРГЕРЫ»
«Классический — 350 ₽»
«Сырный — 390 ₽»
«DRINKS»
«Cola 0.33 — 120 ₽»
«Water — 80 ₽»
«今天特价: 9.9»
Neat layout, consistent font sizes, realistic reflections on a plastic cover, documentary photography style.

Что тестируем

Это стресс‑тест на многоязычный текст (RU/EN/中文) и на мелкие кегли в “реальном” фото‑контексте, где появляются блики и перспектива. Сложность — сохранить читабельность мелкого текста, не перепутать валюту/цифры и не разрушить табличную структуру.

Текст на постере (многострочный, кириллица)
A clean minimal advertising poster on a light beige background. In the center, a white ceramic coffee cup with latte art. Above the cup, big headline text in Russian: «КОФЕ С УТРА». Below the cup, smaller subtitle text: «Свежеобжарено. 100% арабика.» Bottom right corner: a small price tag «199 ₽». Modern Swiss typography, perfect kerning, straight baseline, no distortions, print-ready, high resolution.
Что тестируем
Тест на рендеринг текста и верстку (строки, кернинг, базовая линия, символ ₽) — это типичная слабая зона многих диффузионных моделей. Сложность — удержать точное написание без “псевдобукв”, не поломать геометрию шрифта и не “поплыть” по выравниванию.
Руки и мелкая моторика (самая частая поломка)

Ultra realistic photo: a watchmaker repairing a mechanical wristwatch. Both hands in frame, one hand holds tiny tweezers, the other holds a screwdriver. Visible fingernails, natural skin pores, correct finger count, realistic joints. Macro lens, shallow depth of field, crisp focus on the watch movement.

Что тестируем

Тест на анатомию кистей/пальцев, предметный контакт (инструмент “в руке”), правдоподобие суставов и отсутствие лишних пальцев — это классический failure mode у T2I моделей. Сложность — совместить макро‑детализацию с корректной геометрией пальцев и убедительным “захватом” предметов.

Две фигуры + взаимодействие + сложная поза
Candid photo in a cozy kitchen: two people high-five each other mid-motion, laughing. Full upper bodies, both hands visible, motion blur is subtle and realistic, faces sharp, natural skin tones, realistic clothing folds, no extra limbs.
Что тестируем
Проверка мульти‑персонажей и взаимодействия (контакт ладонь‑ладонь) — тут часто ломаются конечности, появляются лишние пальцы/руки или “слипание” объектов. Сложность — синхронизировать позы двух людей, сохранить правдоподобную динамику и при этом не потерять детали лиц.
Зеркало (двойная сцена) и согласованность отражения

A photorealistic portrait of a woman standing in front of a bathroom mirror. The camera sees her from behind, and her face is visible only in the mirror reflection. The reflection must match the real scene perfectly: same earrings, same hairstyle, same lighting direction. Soft morning light from a window, realistic bathroom details.

Что тестируем

Зеркала — тест на логическую согласованность и “двойное” представление одного и того же персонажа. Сложность — чтобы отражение не стало другим лицом/другими серьгами/другим светом, и чтобы перспектива отражения выглядела физически правдоподобно.

Прозрачные материалы: стекло, вода, лед
High-end product photo: a tall crystal glass filled with sparkling water and ice cubes, condensation droplets on the outside, lemon slice on the rim. Studio lighting with softbox reflections, clean white background, extremely realistic refraction and caustics, sharp details.
Что тестируем
Тест на оптику и материалы: преломление, каустики, поведение льда/пузырьков/конденсата. Сложность — модели часто “рисуют” воду/стекло как пластик или дают физически странные искажения; здесь хорошо видно, кто умеет реализм, а кто “стилизацию”.
Сложная архитектура + текстуры + перспектива (широкий угол)
Photorealistic wide-angle interior shot of a modern minimalist living room. Floor-to-ceiling windows, city skyline outside, wooden floor with visible grain, white textured plaster walls, a large modular sofa. Shot on a 16mm lens, correct vertical lines (no weird bending), natural HDR-like dynamic range.
Что тестируем
Проверка перспективы, “вертикалей”, качества текстур (дерево/штукатурка), и того, как модель ведёт себя в широкоугольной сцене. Сложность — не получить “ломаную” геометрию и не превратить детали интерьера в кашу при большом количестве прямых линий.
Продуктовая предметка с точной геометрией и брендингом (без логотипов-реальных брендов)
Studio product shot of a matte black wireless computer mouse on a seamless gray background. On the mouse there is a clean geometric logo text: «KLEIN» (all caps), centered, perfectly readable. Precise shape, sharp edges, subtle micro-scratches, soft shadow under the mouse.
Что тестируем
Тест на точность формы и аккуратную предметную съемку + короткий текст на объекте (брендинг). Сложность — чтобы надпись не “плыла” по кривизне корпуса и не превращалась в набор похожих букв; у моделей с сильным текстом это будет заметно лучше.
Длинный промт с иерархией требований (строгое следование)

Subject: a red vintage bicycle leaning against a blue door.
Environment: narrow European street, cobblestone road, small potted plants.
Style: photorealistic, cinematic, soft overcast daylight.
Technical: 35mm lens, f/2.8, shallow depth of field, focus on the bicycle logo plate that says «ALTO». No people, no cars, no extra text anywhere.

Что тестируем

Это тест на prompt adherence: что модель считает главным, а что проигнорирует, и умеет ли держать запреты (“no people, no cars, no extra text”). Для Flux 2 Klein часто рекомендуют структуру “subject → environment → style → technical”, и этот промт прямо проверяет такой подход. Сложность — выполнить все ограничения одновременно и не “подмешать” лишние объекты.

Сложная композиция: много объектов + порядок + счет

Top-down flat lay photo on a white table. Exactly 12 objects arranged in a 3×4 grid with equal spacing:
Row 1: red apple, yellow banana, green pear, orange.
Row 2: silver key, black pen, blue notebook, white eraser.
Row 3: small cactus in a pot, sunglasses, wristwatch, paper clip.
Perfect alignment, consistent shadows, realistic materials, no extra objects.

Что тестируем

Тест на счёт, структуру и компоновку (ровная сетка, ровные отступы, “ровно 12 объектов”, правильный порядок). Сложность — модели часто ошибаются в количестве, дублируют предметы, нарушают сетку или меняют порядок; это быстро выявляет, кто лучше держит композиционную дисциплину.