Весь Мир Hi-Fi

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons

Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.

Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

AudioSet

Этот набор данных курируют инженеры из лаборатории Machine Perception, являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на 632 класса, которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.

AudioSet предлагает три набора: тестовый, сбалансированный и несбалансированный. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.

Данные для скачивания представлены в двух форматах: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль — youtube-dl. Датасет распространяют по лицензии CC BY 4.0. За обновлениями можно следить в группе Google: audioset-users.

MIMII Dataset

Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих неисправности индустриальных агрегатов. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.

Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.

Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно прослушать по ссылке. Набор распространяют по лицензии CC BY-SA.

LibriSpeech

Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из проекта «Гутенберг».

Помимо самого датасета, на сайте можно скачать все MP3-файлы с записями (это 87 Гбайт) и метаданные к ним. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на kaldi-asr.org.

Million Song Dataset

Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть», используя код, предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года владеет Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.

Вся база весит около 300 Гбайт. Но авторы предлагают небольшую тестовую выборку из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых можно выделить: исполнителя, жанр, дату релиза, настроение и другие.

Эту статью прочитали 5 665 раз

Статья входит в разделы:Интересное о звуке

Поделиться материалом:

Почитать еще:

Обсуждение данного материала

Комментариев пока нет. Станьте первым!

Написать свой комментарий