Всем привет! Сегодня проведём практический тест трёх моделей генерации изображений — Flux 2 Klein, Qwen Image 2512 и Z‑Image — прямо в ComfyUI, чтобы понять, чем они реально отличаются в одинаковых условиях. Мы прогоним одну и ту же серию промтов, зафиксируем seed/настройки (насколько это возможно) и посмотрим, какая модель лучше справляется с задачами “из жизни”, а не только с красивыми демками.
Мы поставим перед моделями ряд сложных задач. На каждую генерацию у модели будет только одна попытка и разберём, где появляются типовые артефакты: искажения текста, “ломающиеся” руки, неверное количество объектов, грязные текстуры, проблемы с отражениями и т.п.
Ниже будет промт и пояснение что мы будем тестировать с помощью данного промта, а выводы вы сможете сделать сами.
A close-up photo of a street food stall menu board. The board has three sections with perfectly readable text:
«БУРГЕРЫ»
«Классический — 350 ₽»
«Сырный — 390 ₽»
«DRINKS»
«Cola 0.33 — 120 ₽»
«Water — 80 ₽»
«今天特价: 9.9»
Neat layout, consistent font sizes, realistic reflections on a plastic cover, documentary photography style.
Это стресс‑тест на многоязычный текст (RU/EN/中文) и на мелкие кегли в “реальном” фото‑контексте, где появляются блики и перспектива. Сложность — сохранить читабельность мелкого текста, не перепутать валюту/цифры и не разрушить табличную структуру.
Ultra realistic photo: a watchmaker repairing a mechanical wristwatch. Both hands in frame, one hand holds tiny tweezers, the other holds a screwdriver. Visible fingernails, natural skin pores, correct finger count, realistic joints. Macro lens, shallow depth of field, crisp focus on the watch movement.
Тест на анатомию кистей/пальцев, предметный контакт (инструмент “в руке”), правдоподобие суставов и отсутствие лишних пальцев — это классический failure mode у T2I моделей. Сложность — совместить макро‑детализацию с корректной геометрией пальцев и убедительным “захватом” предметов.
A photorealistic portrait of a woman standing in front of a bathroom mirror. The camera sees her from behind, and her face is visible only in the mirror reflection. The reflection must match the real scene perfectly: same earrings, same hairstyle, same lighting direction. Soft morning light from a window, realistic bathroom details.
Зеркала — тест на логическую согласованность и “двойное” представление одного и того же персонажа. Сложность — чтобы отражение не стало другим лицом/другими серьгами/другим светом, и чтобы перспектива отражения выглядела физически правдоподобно.
Subject: a red vintage bicycle leaning against a blue door.
Environment: narrow European street, cobblestone road, small potted plants.
Style: photorealistic, cinematic, soft overcast daylight.
Technical: 35mm lens, f/2.8, shallow depth of field, focus on the bicycle logo plate that says «ALTO». No people, no cars, no extra text anywhere.
Это тест на prompt adherence: что модель считает главным, а что проигнорирует, и умеет ли держать запреты (“no people, no cars, no extra text”). Для Flux 2 Klein часто рекомендуют структуру “subject → environment → style → technical”, и этот промт прямо проверяет такой подход. Сложность — выполнить все ограничения одновременно и не “подмешать” лишние объекты.
Top-down flat lay photo on a white table. Exactly 12 objects arranged in a 3×4 grid with equal spacing:
Row 1: red apple, yellow banana, green pear, orange.
Row 2: silver key, black pen, blue notebook, white eraser.
Row 3: small cactus in a pot, sunglasses, wristwatch, paper clip.
Perfect alignment, consistent shadows, realistic materials, no extra objects.
Тест на счёт, структуру и компоновку (ровная сетка, ровные отступы, “ровно 12 объектов”, правильный порядок). Сложность — модели часто ошибаются в количестве, дублируют предметы, нарушают сетку или меняют порядок; это быстро выявляет, кто лучше держит композиционную дисциплину.