Flux Kontext на слабой видеокарте

Друзья всем привет. В этой статье я хочу сравнить квантованные модели Flux Kontext

На данный момент есть следующие квантованные модели:

  • flux1-kontext-dev-Q2_K.gguf (4.02 GB)
  • flux1-kontext-dev-Q3_K_M.gguf (5.37 GB)
  • flux1-kontext-dev-Q3_K_S.gguf (5.23 GB)
  • flux1-kontext-dev-Q4_0.gguf (6.8 GB)
  • flux1-kontext-dev-Q4_1.gguf (7.54 GB)
  • flux1-kontext-dev-Q4_K_M.gguf (6.93 GB)
  • flux1-kontext-dev-Q4_K_S.gguf (6.8 GB)
  • flux1-kontext-dev-Q5_0.gguf (8.28 GB)
  • flux1-kontext-dev-Q5_1.gguf (9.02 GB)
  • flux1-kontext-dev-Q5_K_M.gguf (8.42 GB)
  • flux1-kontext-dev-Q5_K_S.gguf (8.28 GB)
  • flux1-kontext-dev-Q6_K.gguf (9.85 GB)
  • flux1-kontext-dev-Q8_0.gguf (12.7 GB)

Скачать их можно с huggingface

Что такое квантование читайте в самом низу статьи, а мы возьмём вот такие входные изображения

Входные изображение

Промпт

				
					Put on the headphones on the head of a woman. Save the style, and the face of a woman
				
			

Ниже представлены результаты генерации на моделях:

  • flux1-kontext-dev-Q2_K
  • flux1-kontext-dev-Q3_K_M
  • flux1-kontext-dev-Q4_K_M
  • flux1-kontext-dev-Q5_K_M
  • flux1-kontext-dev-Q6_K
  • flux1-dev-kontext_fp8_scaled

Время загрузки и генерации

flux1-dev-kontext_fp8_scaled
Загрузка модели с генерацией (холодный старт)
Повторная генерация
Квантованные модели
Загрузка модели с генерацией (холодный старт)
Повторная генерация

Как вы можете видеть, время загрузки gguf моделей в 2 раза быстрее, хотя время генерации одинаковое.

Отличия моделей GGUF

Квантованные модели имеют расширение gguf и выглядят как:

  • flux1-kontext-dev-Q4_0.gguf (6.8 GB)
  • flux1-kontext-dev-Q4_1.gguf (7.54 GB)
  • flux1-kontext-dev-Q4_K_M.gguf (6.93 GB)
  • flux1-kontext-dev-Q4_K_S.gguf (6.8 GB)

Основные параметры квантованых моделей:

  • Q — модель квантована (сжата для экономии памяти). Цифра после Q — количество бит на один вес (чем больше, тем выше качество и размер файла).
  • K — групповое квантование (более современный и точный способ, чем устаревшие 0 и 1).
  • _M, _S, _L — уровень точности: M (medium) — средний баланс, S (small) — быстрее, но хуже по качеству, L (large) — максимальная точность, но больше размер.
  • _0, _1 — устаревшие схемы квантования: 0 — глобальный scale/zero-point, 1 — построчный scale/zero-point. Они быстрее, но менее точны, чем K.

 

Пример расшифровки:

  • Q4_K_M — 4-битная квантованная модель, групповое квантование, средняя точность.
  • Q5_K_M — 5-битная, групповое квантование, средняя точность.
  • Q6_K — 6-битная, групповое квантование, высокая точность.
  • Q8_0 — 8-битная, устаревшая схема, почти без потери качества, но большой размер.

Какую модель выбрать для 8 ГБ VRAM

Оптимальный выбор — модели с квантованием Q4_K_M или Q5_K_M. Они обеспечивают хороший баланс между качеством и размером, отлично подходят для 8 ГБ VRAM.

  • Q6_K — чуть выше по качеству, но может не поместиться в 8 ГБ VRAM, особенно если используется большой контекст.
  • Q4_0, Q4_1 — менее точные, но быстрее и меньше по размеру. Используйте только при жёстких ограничениях по памяти.
  • Q8_0 — почти без потери качества, но размер файла близок к fp16 и обычно не помещается в 8 ГБ VRAM.

 

Практические советы:

  • Размер файла модели должен быть на 1–2 ГБ меньше объёма вашей VRAM, чтобы оставить запас под контекст и системные нужды.
  • Q5_K_M — часто считается «золотой серединой» для 8 ГБ VRAM: качество близко к fp16, а размер позволяет работать с приличным контекстом.
  • Q4_K_M — если нужно больше свободной памяти или чуть выше скорость, при небольшой потере качества.
  • Q6_K — если модель помещается, можно использовать для максимального качества, но обычно для 8 ГБ VRAM это предел.