Ace Step 1.5

Всем привет!

На днях вышла новая локальная модель Ace Step 1.5 для генерации музыкальных композиций. Я конечно же решил попробовать её и залип на целый день. Результат оказался настолько впечатляющим, что спешу поделиться подробностями.

Что такое Ace Step 1.5?

Ace Step 1.5 — это открытая модель с лицензией MIT, предназначенная для генерации музыки по текстовому описанию (text-to-audio). Она создана совместно компаниями ACE Studio и StepFun и позиционируется как мощная альтернатива коммерческим сервисам вроде Suno.

Ключевая особенность — это локальность. Модель работает прямо на вашем компьютере, не отправляя данные в облако. И что самое удивительное — для работы требуется видеокарта NVIDIA с всего лишь 4+ Gb VRAM

Ссылки на Workflow, на модели а так же на официальные страницы в GitHub и Huggingface удобно представлены на странице ComfyUI. Так же привожу прямую ссылку на GitHub. Обязательно посмотрите, модель очень мощная и позволяет не только генерировать музыку, но и делать ремиксы на уже существующие композиции, а так же обучать лоры для генерации песен с нужными вам голосами и стилями исполнения.

Туториал на GitHub

Краткий гайд

Для тех кто не любит разбираться в гайдах на английском, привожу свой краткий гайд по настройкам.

Краткий гайд

Для тех кто не любит разбираться в гайдах на английском, привожу свой краткий гайд по настройкам.

bpm

30-300

60–80 (баллады);90-120 (средний темп);130-180 (быстрый)

keyscale

C Major, Am, F# Minor и т.п.

Влияет на «окрас» настроения.

timesignature

4/4, 3/4, 6/8
4/4 стандарт; 3/4 вальс; 6/8 свинг.

vocal_language

язык

Обычно определяется из lyrics.

duration

секунды

Целевая длина; фактическая может немного отличаться.

Теги для контроля вокала (Vocal Control Tags)

[raspy vocal]

Хриплый, текстурированный вокал
[whispered]
Шёпот
[falsetto]

Фальцет

[powerful belting]

Мощное, высокое пение

[spoken word]

Рэп/речитатив

[harmonies]

Многослойные гармонии

[call and response]

Перекличка «вопрос-ответ»

[ad-lib]

Импровизированные украшения

Теги энергии и эмоции (Energy and Emotion Tags)
[high energy]

Высокая энергия, страстность

[low energy]

Низкая энергия, сдержанность

[building energy]

Нарастающая энергия

[explosive]

Взрывная энергия

[melancholic]

Меланхолия

[euphoric]

Эйфория

[dreamy]

Сновидческое, мечтательное

[aggressive]

Агрессия

Теги для контроля вокала (Vocal Control Tags)

Базовая структура

.

[Intro]

Вступление. Задает атмосферу.

[Verse] / [Verse 1]

Куплет. Основное повествование, развитие сюжета.

[Pre-Chorus]

Пред-припев. Наращивает энергию перед кульминацией.

[Chorus]

Припев. Эмоциональная кульминация, основная тема.

[Bridge]

Бридж (связка). Переход, смена перспективы, подъем.

[Outro]

Завершение, концовка.

Динамические секции

.

[Build]

Постепенное нарастание энергии и напряжения.

[Drop]

Момент сброса энергии (часто в электронной музыке).

[Breakdown]

Упрощение аранжировки, минимум инструментов, «воздух»..

Инструментальные секции

.

[Instrumental]

Чисто инструментальная часть, без вокала.

[Guitar Solo]

Соло на гитаре.

[Piano Interlude]

Фортепианная интерлюдия.

Специальные теги
.

[Fade Out]

Постепенное затухание звука в конце.
[Silence]
Пауза, тишина.
Теги для контроля вокала (Vocal Control Tags)

Объединение тегов: используйте умеренно.

Для более точного управления теги структуры можно комбинировать:

				
					[Chorus - anthemic]
Текст припева
Вашей мечты

[Bridge - whispered]
Тут тихий шепот
				
			

Это работает лучше, чем писать только [Chorus] — здесь вы сообщаете модели, что это Chorus (припев), и как ее петь anthemic (гимн).

⚠️ Примечание. Не размещайте слишком много тегов.

❌ Не правильно:
[Chorus - anthemic - stacked harmonies - high energy - powerful - epic]

✅ Правильно:
[Chorus - anthemic]

Установка слишком большого количества тегов сопряжена с двумя рисками:

  1. Модель может принять содержимое тега за текст песни.
  2. Слишком много инструкций запутывают модель, ухудшая эффект.

Принцип: Сохраняйте структурные теги краткими; помещайте сложные описания стилей в заголовок.

⚠️ Ключ: Поддержание согласованности между подписями и текстами

Не допускайте конфликтов.

Если описания в промпте и в вокале противоречат друг другу, модель запутывается и качество вывода снижается.

❌ Пример конфликта:
Подсказка: "violin solo, classical, intimate chamber music"
Текст: [Guitar Solo - electric - distorted]

✅ Последовательный пример:
Подсказка: "violin solo, classical, intimate chamber music"
Текст: [Violin Solo - expressive]

Контрольный список:

Инструменты в промпте ↔ Теги инструментального раздела в текстах песен
Эмоции в промпте ↔ Теги энергии в текстах песен
Описание вокала в промпте ↔ Теги управления вокалом в тексте песни

Думайте о промпте как об «общей обстановке», а о тексте песни как о «сценарии кадров» — они должны рассказывать одну и ту же историю.

Поддерживайте длину

Поддерживайте примерно одинаковое количество слогов в строках, которые занимают одну и ту же позицию в структуре.

❌ Плохой пример (нарушает ритм):
[Verse 1]
Я смотрю в окно на улицу, где свет, всё меняется быстро
Привет

✅ Хороший пример (сбалансированный ритм):
[Verse 1]
Я смотрю в окно
На улицу, где свет
Всё меняется быстро
Привет

Практический совет:

  • Идеальная длина: 6-10 слогов на строку — это безопасный и удобный для модели диапазон.
  • Допустимое отклонение: Между строками одного куплета или припева разница должна быть ±1-2 слога.
  • Особое внимание: Первым строкам каждого куплета или припева. Старайтесь, чтобы они были особенно близки по длине.
ЗАГЛАВНЫЕ БУКВЫ = Повышенная интенсивность вокала

Это самый простой способ показать модели, где нужен эмоциональный взлёт. Всё, что написано ЗАГЛАВНЫМИ БУКВАМИ, модель попытается спеть громче, мощнее, с большим напором (как будто исполнитель кричит или поёт на полную силу).

[Verse]
гуляя по пустым улицам (нормальная интенсивность)

[Chorus]
МЫ ЧЕМПИОНЫ! (высокая интенсивность, крик)

Скобки ( ) для бэк-вокал и гармонии

Всё, что заключено в круглые скобки ( ), модель интерпретирует как дополнительный вокальный слой. Этот слой будет звучать тише, на заднем плане, повторяя или дополняя основную вокальную партию.

[Chorus]
Мы поднимаемся вместе (вместе)
В свет (в свет)

				
					Подсказка: female vocal, piano ballad, emotional, intimate atmosphere, strings, building to powerful chorus

[Intro - piano]

[Verse 1]
Лунный свет стелется на подоконник
Я слышу твоё дыхание
Город спит вдали
Не спим лишь мы

[Pre-Chorus]
Тишина вокруг сейчас
Но в душе — бушует страсть

[Chorus - powerful]
Давай сгорим дотла
Как фейерверк в ночи
Мгновенный, яркий взлёт
Наш миг — он впереди!

[Verse 2]
Время сквозь пальцы течёт
Нам не удержать его
Но этот миг — он наш
Огонь в глазах твоих

[Bridge - whispered]
Если завтра всё исчезнет
Мы хоть раз уже горели...

[Final Chorus]
Давай сгорим дотла
Как фейерверк в ночи
Мгновенный, яркий взлёт
ЭТО НАШ МОМЕНТ!

[Outro - fade out]
				
			

Если генерируете чистую инструментальную музыку без вокала

				
					[Instrumental]
Или используйте теги структуры для описания инструментального развития:

[Intro - ambient]
[Main Theme - piano]
[Climax - powerful]
[Outro - fade out]