Всем привет!
На днях вышла новая локальная модель Ace Step 1.5 для генерации музыкальных композиций. Я конечно же решил попробовать её и залип на целый день. Результат оказался настолько впечатляющим, что спешу поделиться подробностями.
Ace Step 1.5 — это открытая модель с лицензией MIT, предназначенная для генерации музыки по текстовому описанию (text-to-audio). Она создана совместно компаниями ACE Studio и StepFun и позиционируется как мощная альтернатива коммерческим сервисам вроде Suno.
Ключевая особенность — это локальность. Модель работает прямо на вашем компьютере, не отправляя данные в облако. И что самое удивительное — для работы требуется видеокарта NVIDIA с всего лишь 4+ Gb VRAM
Ссылки на Workflow, на модели а так же на официальные страницы в GitHub и Huggingface удобно представлены на странице ComfyUI. Так же привожу прямую ссылку на GitHub. Обязательно посмотрите, модель очень мощная и позволяет не только генерировать музыку, но и делать ремиксы на уже существующие композиции, а так же обучать лоры для генерации песен с нужными вам голосами и стилями исполнения.
Для тех кто не любит разбираться в гайдах на английском, привожу свой краткий гайд по настройкам.
Для тех кто не любит разбираться в гайдах на английском, привожу свой краткий гайд по настройкам.
bpm
30-300
60–80 (баллады);90-120 (средний темп);130-180 (быстрый)
keyscale
C Major, Am, F# Minor и т.п.
Влияет на «окрас» настроения.
timesignature
4/4, 3/4, 6/8 4/4 стандарт; 3/4 вальс; 6/8 свинг. vocal_language
язык
Обычно определяется из lyrics.
duration
секунды
Целевая длина; фактическая может немного отличаться.
[raspy vocal]
[whispered] [falsetto] Фальцет
[powerful belting] Мощное, высокое пение
[spoken word]
Рэп/речитатив
[harmonies]
Многослойные гармонии
[call and response]
Перекличка «вопрос-ответ»
[ad-lib] Импровизированные украшения
[high energy] Высокая энергия, страстность
[low energy] Низкая энергия, сдержанность
[building energy]
Нарастающая энергия
[explosive] Взрывная энергия
[melancholic] Меланхолия
[euphoric] Эйфория
[dreamy] Сновидческое, мечтательное
[aggressive]
Агрессия
Базовая структура
[Intro]
Вступление. Задает атмосферу.
[Verse] / [Verse 1]
Куплет. Основное повествование, развитие сюжета.
[Pre-Chorus]
Пред-припев. Наращивает энергию перед кульминацией. [Chorus]
Припев. Эмоциональная кульминация, основная тема.
[Bridge]
Бридж (связка). Переход, смена перспективы, подъем. [Outro]
Завершение, концовка. Динамические секции
[Build]
Постепенное нарастание энергии и напряжения.
[Drop]
Момент сброса энергии (часто в электронной музыке).
[Breakdown] Упрощение аранжировки, минимум инструментов, «воздух»..
.
[Instrumental]
Чисто инструментальная часть, без вокала. [Guitar Solo]
Соло на гитаре.
[Piano Interlude] Фортепианная интерлюдия.
[Fade Out]
Постепенное затухание звука в конце. [Silence] Пауза, тишина. Объединение тегов: используйте умеренно.
Для более точного управления теги структуры можно комбинировать:
[Chorus - anthemic]
Текст припева
Вашей мечты
[Bridge - whispered]
Тут тихий шепот
Это работает лучше, чем писать только [Chorus] — здесь вы сообщаете модели, что это Chorus (припев), и как ее петь anthemic (гимн).
⚠️ Примечание. Не размещайте слишком много тегов.
❌ Не правильно:[Chorus - anthemic - stacked harmonies - high energy - powerful - epic]
✅ Правильно:[Chorus - anthemic]
Установка слишком большого количества тегов сопряжена с двумя рисками:
Принцип: Сохраняйте структурные теги краткими; помещайте сложные описания стилей в заголовок.
⚠️ Ключ: Поддержание согласованности между подписями и текстами
Если описания в промпте и в вокале противоречат друг другу, модель запутывается и качество вывода снижается.
❌ Пример конфликта:Подсказка: "violin solo, classical, intimate chamber music"Текст: [Guitar Solo - electric - distorted]
✅ Последовательный пример:Подсказка: "violin solo, classical, intimate chamber music"Текст: [Violin Solo - expressive]
Контрольный список:
Инструменты в промпте ↔ Теги инструментального раздела в текстах песенЭмоции в промпте ↔ Теги энергии в текстах песенОписание вокала в промпте ↔ Теги управления вокалом в тексте песни
Думайте о промпте как об «общей обстановке», а о тексте песни как о «сценарии кадров» — они должны рассказывать одну и ту же историю.
Поддерживайте примерно одинаковое количество слогов в строках, которые занимают одну и ту же позицию в структуре.
❌ Плохой пример (нарушает ритм):[Verse 1]Я смотрю в окно на улицу, где свет, всё меняется быстроПривет
✅ Хороший пример (сбалансированный ритм):[Verse 1]Я смотрю в окноНа улицу, где светВсё меняется быстроПривет
Практический совет:
Это самый простой способ показать модели, где нужен эмоциональный взлёт. Всё, что написано ЗАГЛАВНЫМИ БУКВАМИ, модель попытается спеть громче, мощнее, с большим напором (как будто исполнитель кричит или поёт на полную силу).
[Verse]гуляя по пустым улицам (нормальная интенсивность)
[Chorus]МЫ ЧЕМПИОНЫ! (высокая интенсивность, крик)
Всё, что заключено в круглые скобки ( ), модель интерпретирует как дополнительный вокальный слой. Этот слой будет звучать тише, на заднем плане, повторяя или дополняя основную вокальную партию.
[Chorus]Мы поднимаемся вместе (вместе)В свет (в свет)
Подсказка: female vocal, piano ballad, emotional, intimate atmosphere, strings, building to powerful chorus
[Intro - piano]
[Verse 1]
Лунный свет стелется на подоконник
Я слышу твоё дыхание
Город спит вдали
Не спим лишь мы
[Pre-Chorus]
Тишина вокруг сейчас
Но в душе — бушует страсть
[Chorus - powerful]
Давай сгорим дотла
Как фейерверк в ночи
Мгновенный, яркий взлёт
Наш миг — он впереди!
[Verse 2]
Время сквозь пальцы течёт
Нам не удержать его
Но этот миг — он наш
Огонь в глазах твоих
[Bridge - whispered]
Если завтра всё исчезнет
Мы хоть раз уже горели...
[Final Chorus]
Давай сгорим дотла
Как фейерверк в ночи
Мгновенный, яркий взлёт
ЭТО НАШ МОМЕНТ!
[Outro - fade out]
Если генерируете чистую инструментальную музыку без вокала
[Instrumental]
Или используйте теги структуры для описания инструментального развития:
[Intro - ambient]
[Main Theme - piano]
[Climax - powerful]
[Outro - fade out]