ИИ GigaChat научился генерировать музыку — вместе с аудиофайлом чат-бот выдаёт MIDI-партитуру

Музыкальная часть бота обучалась на 200 000 композициях разных жанров.



ИИ GigaChat научился генерировать музыку — вместе с аудиофайлом чат-бот выдаёт MIDI-партитуру

Искусственный интеллект и чат-бот GigaChat от «Сбера» научился генерировать музыку по текстовому запросу. Об этом стало известно в ходе международной конференции по искусственному интеллекту AI Journey 2023. По словам вице-президента по цифровым поверхностям «Салют» Сбербанка Дениса Филиппова, возможности GigaChat были расширены через интеграцию нейросетей CLaMP и SymFormer. Благодаря этому пользователи могут сформулировать задачу, чтобы получить музыкальную композицию по своему описанию.

Отмечается, что чат-бот не только генерирует звуковую дорожку, но и соответствующую ей партитуру в формате MIDI. Последнее позволит импортировать идеи искусственного интеллекта в любую DAW для дальнейшей работы. Генерация музыки появилась в GigaChat благодаря нейросетям CLaMP и SymFormer, которые были внедрены в чат-бота. Как стало известно в ходе конференции AI Journey 2023, для обучения SymFormer использовалась платформа ML Space на базе суперкомпьютера Christofari и база данных из более, чем 200 000 композиций в разных жанрах. На каких условиях были получены композиции и был ли подход «Сбера» более честным, чем тот, что использовался Stability AI при обучении ИИ Stable Audio и был подвергнут осуждению основным разработчиком, не уточняется.

ИИ GigaChat научился генерировать музыку — вместе с аудиофайлом чат-бот выдаёт MIDI-партитуру

По словам сотрудников «Сбера», модель генерации музыки GigaChat рассматривает музыку в качестве нотного текста. При этом, чтобы преобразовать полученные аудиоданные в текст, разработчики использовали конвертацию информации в визуальное содержимое и её последующий перевод в текст. Отмечается, что итоговая модель потребовала адаптации подхода text-2-image для нотной записи.

    Генерация музыки в рамках GigaChat проходит в три этапа:
  1. Текстовый запрос конвертируется в понятный для генератора мелодий язык через модель CLaMP.
  2. Преобразованные данные, полученные от CLaMP и включающие в том числе информацию о музыкальном направлении, отправляются в SymFormer, который генерирует несколько вариантов композиции.
  3. Чат-бот подключает рендеринг, формирующий окончательный аудиофайл и соответствующую ему MIDI-партитуру, которая передаётся пользователю.

Филиппов полагает, что новый навык GigaChat будет полезен не только музыкантам, энтузиастам и представителям творческих профессий, но и малому и среднему бизнесу. «Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, залов ожидания и салонов красоты, создавать мелодии для рекламных видеороликов и соцсетей», — заметил руководитель.

Для использования чат-бота GigaChat необходимо зарегистрироваться на сайте, через который осуществляется доступ к искусственному интеллекту. Чат-бот работает только в браузере и доступен всем желающим на бесплатной основе. Новые музыкальные возможности бота уже внедрены в платформу, поэтому пользователи могут свободно задавать стилистические и прочие параметры для создания композиций и проверки возможностей искусственного интеллекта.


Подготовлено по материалам сайта "SAMESOUND", ноябрь 2023 г. www.samesound.ru

Эту статью прочитали 2 291 раз
Статья входит в разделы:Новости мира Hi-Fi

Поделиться материалом:
Обсуждение данного материала
Комментариев пока нет. Станьте первым!
Написать свой комментарий