Нейросети для создания музыки в 2024 году

Использование искусственного интеллекта все глубже и глубже проникает в разные виды деятельности и творчества. О том, как можно использовать нейросеть для создания музыкальных произведений, и поговорим в этой статье.

Содержание

1 Искусственный интеллект и музыкальное творчество
2 Как нейросети генерируют музыку по текстовому запросу
- 2.1 Преимущества и недостатки символьной и аудио генерации музыки
- 2.2 Как обучить свою нейросеть создавать музыку
3 Нейросети для озвучивания изображений и видео
4 Нейросети для комбинирования разных жанров и стилей музыки
5 Обзор лучших нейросетей для создания музыки онлайн

Искусственный интеллект и музыкальное творчество

Нельзя сказать, что использование нейронных сетей в музыке лишит музыкантов заработка и станет заменой реальным артистам. Никакая искусственная музыка не заменит восприятие слушателем, особенно на концерте, исполнения артистом партитур на фортепиано или гитаре.

Тем не менее, подобные сети расширяют возможности для композиторов и музыкантов. Благодаря подобным программам можно провести анализ произведения, выделить какие-то специфические ритмы. Можно, например, записать автоматически транскрипцию аккордов уже готового произведения, что в дальнейшем поможет композитору создать новую аранжировку.

При помощи ИИ можно изучить темп и ритм музыки, что в перспективе даст музыканту осуществление создания более ярко выраженных ритмических образцов (паттернов).

Ритмический паттерн – часть закономерной ритмической регулярности.

Композитор может попробовать себя в работе с новыми для него стилями и звуками. При использовании ИИ получают новые звуковые эффекты, повышают качество звучания уже имеющейся композиции, а также автоматизируют процесс при звукозаписи и сведении.

Подводя краткий итог, выделим основные возможности нейронной сети:

создание музыки «с нуля»;
редактирование композиции путем введения новых звуков;
удаление искаженных участков и шумов из аудиозаписи;
анализ композиции с учетом измерения темпа, ритма, тональности.

Также использование искусственного интеллекта рассматривается в процессе профессионального образования. Благодаря нейросети ученик узнает о своих ошибках при исполнении композиции, получает подсказки от искусственного ума, что и как можно улучшить в работе. С помощью нейропрограммы есть возможность подобрать индивидуальный план обучения для ученика или студента, так как программа учитывает уже имеющийся уровень знаний и предлагает именно то, что подойдет обучающемуся на данный период освоения программы.

Как нейросети генерируют музыку по текстовому запросу

Перед тем, как искусственный ум сможет создавать музыкальные композиции на основе текстовых запросов, требуется его обучение. Для этого используют большое количество вводных данных, включая ноты, аккорды, MIDI-файлы.

Нейронные сети могут быть разных типов, и с задачей по обработке текстовых запросов может справиться трансформерная модель или рекуррентная версия. Не получится сразу достичь идеального результата, особенно, если ИИ используется профессиональным музыкантом. Необходимо время и терпение для достижения тех результатов, которые хочет получить в итоге запрашиваемый.

После того, как были введены все данные и нейроум был обучен, можно приступать к созданию музыки. Результаты будут отличным друг от друга, так как запросы формируются разными людьми, и базовая информация может отличаться от сети к сети.

Преимущества и недостатки символьной и аудио генерации музыки

Сгенерировать музыку можно двумя вариантами генерации – символьной и аудио.

Символьную генерацию именуют также мелодической. В текущей версии все мелодии создаются с учетом контроля над нотами и изменениями в мелодии.

Положительными сторонами подобной генерации называют:

возможность создания неординарного стиля, который неподвластен человеку;
экономию времени и автоматизированные процессы.

Отрицательными сторонами при использовании мелодической генерации выступают:

риск плагиатов, создания похожих по звучанию произведений, что может привести к проблемам в вопросе принадлежности авторских прав;
определенные ограничения «фантазии» нейроума, так как работа оригинальных музыкантов стоит выше по выразительности;
отсутствие эмоциональности, так как символьная генерация не в состоянии воспринять и «передать» человеческие эмоции.

При аудиогенерации используются различные алгоритмы и модели. Самым популярным алгоритмом считается вариант обучения, такие сети именуются сверточными нейронными или рекуррентными. При вышеуказанном подходе звуковые данные, включая ноты, аккорды, звуковые эффекты и ритмы, обрабатываются и превращаются в аудио-сигнал.

Положительными сторонами считают:

высокое качество продукта на выходе, реалистичность воссозданных эффектов звука;
возможность проведения экспериментов с учетом абсолютно отличающихся друг от друга идей , что позволяет сочинить нечто уникальное;
экономию времени ввиду автоматизированного процесса генерации.

Отрицательные стороны выглядят следующим образом:

так же, как и при использовании мелодического варианта, есть риск получить композицию, сходную с уже существующей, что может привести к обсуждению вопроса об авторских правах;
необходимость введения большого количества исходных данных, включающих не только ноты и аккорды, а также ритмы и жанры;
нарушается восприятие гармонии, так как нейросети еще не до конца обучены обрабатывать сложные гармонические структуры; в связи с этим полученная аудиозапись может звучать неестественно.

Как обучить свою нейросеть создавать музыку

Научить ИИ создавать музыку – процедура творческая, но и нелегкая. Для получения нужных результатов требуются знания, время, терпение. Существуют определенные действия, которые помогают в обучении нейросети.

Выбираются аудиозаписи, которые подходят исполнителю по жанру и стилю. Выбор не должен ограничиваться только аудиофайлами, необходимо подбирать как ноты и аккорды, так и midi-файлы, включая сэмплы. При этом рекомендовано, но не обязательно к исполнению, разделение файлов на две группы: для обучения и для тестирования.
Перед обучением нейронной сети требуется подвести все собранные файлы к одному удобному для работы формату. Для того, чтобы увидеть звук в виде числовых данных, можно использовать мел-частотные кепстральные коэффициенты (MFCC), для аудиофайла подойдет спектрограмма. Можно создать midi-генератор.
Нужно выбрать архитектуру нейросети. Это может быть генеративная состязательная (GAN), рекуррентная нейронная (RNN) либо сверточная нейронная (СNN).
Подготовленную информацию «предлагают» нейросети для обучения. Этот процесс нельзя назвать быстрым, он может потребовать еще больше дополнительных вычислительных ресурсов. Нейросеть будет изучать предоставленные данные, структуру музыки, ее характеристики, что в будущем позволит ей создавать новые произведения.
После получения первых результатов необходимо провести их оценку и скорректировать настройки с учетом индивидуальных потребностей и запросов.

Нейросети для озвучивания изображений и видео

Нейронные приложения используют не только для создания аудиодорожек или редактирования готовых, но и для требующих вмешательства композиций.

ИИ способен озвучить картинку и видеоряд!

Так же, как и создание новой композиции, «рождение» голосового описания – процесс интересный. В создании задействовано большое количество алгоритмов и различных моделей, что в итоговом результате производит абсолютно реалистичный голос так называемой подводки.

При озвучивании видео и картинок применяются три метода.

Использование трансформеров, которые преобразовывают визуальную информацию в аудиоформат. В этом случае обработка изображения происходит последовательно, после чего генерируются аудиодорожки, связанные покадрово с картинками.
Использование рекуррентных нейронных сетей. Работает по такому же принципу, как и трансформер, — обрабатывается в последовательности картинки или видеокадры, после чего создаются аудиофайлы, относящиеся к конкретному элементу изображения.
Использование генеративных состязательных сетей. Работа делится на две части. На одном этапе генерируется голосовая информация, основанная на входном видео или изображении. На втором этапе работает дискриминатор, оценивающий реалистичность полученного аудиоматериала.

Как и в случае с обучением сети по созданию музыкальных произведений, при создании озвучки изображений или видео необходимы время и терпение. К обработке должны быть предложены многочисленные данные, требуется большой объем ресурсов для вычисления. Для достижения идеального конечного результата может потребоваться не единичное использование ИИ, а несколько этапов оптимизаций.

Нейросети для комбинирования разных жанров и стилей музыки

Искусственный интеллект в музыкальной отрасли в состоянии скомбинировать различные жанры и стили. При помощи сетей можно создавать как просто экспериментальные композиции, так и добиться в результате уникального произведения.

В основном используются два метода комбинирования.

Обрабатывается оригинал записи и уже совершенные с ней действия. ИИ изучает структуру аудио, тонкости определенных жанров и стилей, после чего предлагает создать новое произведение. При этом методе в созданном аудиофайле соединяются части из отдельных жанров, например, классическая мелодия преподносится в электронном стиле.

Нейросеть изучает большое количество образцов музыкальных произведений абсолютно противоположных жанров, после чего генерирует новое аудио, которое в себе содержит элементы от каждого из жанров. Источником вдохновения для нейросети могут выступить несколько жанров, а в конечном результате трек будет иметь микс рок-гитары с джазовыми аккордами или поп-музыка будет идти в поочередном сочетании с регги.

Однако, несмотря на понимание процесса с точки зрения теории, на практике такая работа требует знаний и умений. Человек, пробующий себя в тандеме с искусственным интеллектом над комбинацией, должен отлично разбираться в структуре и музыкальных техниках.

Обзор лучших нейросетей для создания музыки онлайн

Российский искусственный интеллект, предлагающий создавать треки, на данный момент существует в единичном экземпляре. Пока IT-специалисты занимаются разработками, есть возможность использовать иностранные платформы.

Сейчас произвести оплату за услуги иностранных сервисов не так сложно, как кажется. Можно воспользоваться услугами посредников, что не совсем безопасно, можно оформить виртуальные карты. Тот, кто настроен решительно на использование платной иностранной платформы, досконально изучит возможности оплаты ресурса.

FineShare Singify

Искусственный интеллект этой условно бесплатной программы предполагает создание музыки и кавер-версий песен. В базе содержится более 100 голосов известных исполнителей.

Голос обучается машинным способом, по этой причине созданные варианты очень приближены к оригиналу. Можно «отредактировать» песню так, что I am not Alone в оригинальном исполнении Майкла Джексона будет звучать голосом Пола Маккартни. Библиотека голосов может похвастаться не только вокалами популярных певцов, в ней содержатся также озвученные файлы из мультфильмов и фильмов.

По функциональности это приложение похоже на Voicify.AI

Сайт на английском языке.

Достоинства:

в рамках сайта есть различных конвертеры, включая работу с голосом и фотографиями;
для впервые зарегистрированных пользователей предлагается 1000 бонусов;
при невозможности найти подходящий голос есть услуга запроса необходимого в техподдержке.

Недостатки:

требуется регистрация или вход через Google-аккаунт;
отсутствует четкая информация об оплате при использовании вне акций и распродаж.

fineshare.com/ai-song-cover

Маэстро

Подходящий для русскоzpsxyjuj населения вариант, созданный Сбером, предполагает бесплатное использование. Создание новых треков доступно благодаря работам двух алгоритмов — SymFormer и CLаMP. CLаMP переводит текст в код, а SymFormer обрабатывает полученный код и на его основе предлагает информацию к воспроизведению определенных звуков.

Интерфейс на русском языке, имеются версии для iOs и Android.

Достоинства:

создает разные варианты аудио, включая инструментальные композиции;
отсутствует ограничение на использование созданных треков;
можно делиться созданными произведениями в соцсетях.

Недостатки:

требуются приложения «Салют» или «Сбербанк Онлайн»;
могут быть достаточно выраженные погрешности в звучании.

apps.sber.ru/salute-apps/a6ac79e1-b490-41fc-8695-d143cb12dddf

Boomy

Сервис, позволяющий создавать музыку. Можно сгенерировать абсолютно новый и оригинальный вариант.

База Boomy предлагает создание не только музыки в целом, имеется потенциал работы с аккордами или тональностями. То есть отредактировать и видоизменить имеющиеся композиции.

Платформа предлагает размещать созданные треки на стрим-сайтах и зарабатывать на просмотрах, однако для этого случая необходимо приобретать дополнительный пакет услуг.

Есть бесплатная версия и платные пакеты с расширенными возможностями. Сайт на английском языке. Минимальная стоимость пакета на месяц — от 9,99$.

Достоинства:

сохранение 25 песен бесплатно при пробной версии;
допускается только 1 релиз.

Недостатки:

требуется регистрация или вход через Google-аккаунт/Apple;
бесплатная версия не предполагает скачивание;
запрещено коммерческое использование на бесплатной версии;
отсутствие прав на собственный трек при использовании его в рамках социальных сетей и иных платформ.

boomy.com

MusicGen

Данный генератор с открытым исходным кодом предлагает создать музыку на основе текстового описания. Можно загружать уже готовый текст либо записать свой собственный, оговорив результат получения. Нейроум работает при помощи единой языковой модели (LM). При таком варианте запускается процесс нескольких потоков сжатого дискретного представления музыкального фрагмента.

Достоинства:

можно создать свой инструмент для генерации музыки, при этом нет необходимости ждать в очереди обработки;
воспринимает русский язык.

Недостатки:

длительность дорожки ограничена 12 сек.

huggingface.co/spaces/facebook/MusicGen

JukeBox

Нейротическая сеть разработана командой Open AI, обучение было пройдено более чем на 1,2 миллионах треков. Как и конкурентные приложения, JukeBox умеет генерировать музыку различных стилей и жанров, научена добавлять вокальные партитуры в готовый текст.

Данная платформа работает с файлами MIDI и имеет открытый исходный код.

Достоинства:

есть бесплатная версия;
возможность создания произведений с вокалом.

Недостатки:

необходимы большие вычислительные ресурсы, не подходит для домашнего использования на данный момент времени;
длительный процесс рендеринга аудио.

openai.com/research/jukebox

Covers AI

На данной платформе возможно воспроизведение голоса, основанного на искусственном интеллекте. Можно создавать кавер-версии музыкальных произведений. База данных записей вокала велика, поэтому приложение может придумать абсолютно новый голос, но при этом соответствующий оригиналу.

На сайте можно ознакомиться онлайн в сравнении, каким было оригинальное аудио голоса и каким оно стало.

Сайт на английском языке. Предполагает только платное использование. Минимальная стоимость пакета на месяц — от 4,99$.

Достоинства:

безлимитное количество кавер-версий;
полноценный трек для использования, а не укороченная версия;
возможность создания дуэтов;
невысокая стоимость пакетов.

Недостатки:

отсутствие бесплатной версии.

covers.ai

Voicify

Программа для создания кавер-версий уже имеющихся известных треков. Работает с загружаемыми файлами и с вставленными ссылками. Предполагается возможность изменения темпа и текста, добавление новых инструментов.

Возможности приложения зависят от приобретаемого пакета. Так, даже в самом простом пакете можно создавать видео и делиться им, а также переводить текст в речь.

Стоимость пакетов – от 7,99$ до 89,99$ в месяц в зависимости от возможностей. Например, в базовом пакете за 7, 99$ отсутствует поддержка 24/7, а трек будет обрабатываться дольше по времени.

В рамках приложения можно создавать обложки.

База постоянно пополняется.

Достоинства:

более 3000 голосов;
генерация обложек для треков;
простой интерфейс, понятный даже новичку.

Недостатки:

отсутствует бесплатная версия;
отсутствует годовая подписка (невыгодно тем, кто пользуется постоянно на длительной основе).

voicify.ai

Musicfy AI

Данная платформа помогает создать музыкальные произведения пользователю, который не имеет никаких знаний в этой сфере. Генерация текстов песен, аккордов и мелодий происходит за счет комбинации машинного обучения.

Сайт на английском языке. Предлагается три платных пакета с различными функциями со стоимостью от 9,99 $ в месяц при оплате помесячно. Предоставляются скидки 20% при оплате пакетов на год.

Достоинства:

предлагает бесплатное создание 5 треков в сутки;
широкие возможности редактирования;
возможность записать свой голос сразу на сайте;
качество получаемых сэмплов.

Недостатки:

требуется регистрация или вход через Google-аккаунт;
в рамках бесплатного периода длина трека составляет всего 15 сек.

musicfy.lol

Melobytes

Платформа предлагает не только создание музыкальной композиции на основе написанного текста, но и превращает в мелодию видео и картинки.

Допускается 5 попыток в сутки в бесплатной версии. Профессиональный пакет обладает большим количеством возможностей и обойдется от 10$ в месяц за подписку.

Достоинства:

понятный интерфейс;
широкий выбор настроек;
есть возможность выбора платного пакета на 7 дней (а не минимум на 30 дней);
есть возможность сохранения нот.

Недостатки:

требуется регистрация;
сильные ограничения функций при демо-версии;
длительная обработка запроса (постановка в очередь).

melobytes.com/en/app/melobytes

Aiva

Ассистент по созданию музыки. Простой интерфейс не создаст сложности в понимании, что нужно делать. Подойдет для людей, не имеющих музыкального образования.

Сайт на английском языке. Предлагается бесплатное использование и два платных пакета с расширенными возможностями от 11€ до 33€ в месяц при единоразовой оплате за год.

Достоинства:

более 250 стилей;
при приобретении платных пакетов возможна частичная монетизация;
в бесплатной версии трек может иметь длительность до 5 минут;
можно скачать три трека в месяц при использовании бесплатной версии.

Недостатки:

при бесплатном использовании авторское право на треки остаются нейросети, равно как и при покупке пакета «стандарт»;
долгий процесс создания.

aiva.ai

Soundful

Приложение с функцией создания треков и лупов. В коллекции приложения имеется достаточное количество уже готовых композиций.

При создании трека предлагается выбрать жанр и поджанр. В дополнительных настройках есть выбор темпа.

Платные пакеты начинаются от 60$ за месяц при оплате раз в месяц. Есть скидки при оплате за год.

Достоинства:

выбор тональностей;
в бесплатной версии доступно скачивание созданного трека (3 раза в месяц);
быстро обрабатывает запросы.

Недостатки:

без регистрации на сайте нет возможности увидеть полный функционал приложения;
весьма ограниченные возможности и права в бесплатной версии.

my.soundful.com

С каждым годом появляется все больше приложений и платформ, позволяющих не только видоизменять уже существующие песни, но и создавать собственные, при этом не имея ни малейшего намека на музыкальное образование. Каждая из платформ имеет свои преимущества и недостатки, и потребитель может выбрать уже сейчас именно то, что нужно ему.