О звуке простыми словами42Производители Hi-Fi.
Истории и интервью111Репортажи с заводов65Репортажи с Hi-Fi выставок69"Сделай сам"44Готовые проекты Аудиомании42Пресса об Аудиомании50Видео496Фотогалерея100Интересное о звуке805Новости мира Hi-Fi2560Музыкальные и кинообзоры620Глоссарий
Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons
Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.
Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.
AudioSet
Этот набор данных курируют инженеры из лаборатории Machine Perception, являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на 632 класса, которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.
AudioSet предлагает три набора: тестовый, сбалансированный и несбалансированный. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.
Данные для скачивания представлены в двух форматах: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль — youtube-dl. Датасет распространяют по лицензии CC BY 4.0. За обновлениями можно следить в группе Google: audioset-users.
MIMII Dataset
Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих неисправности индустриальных агрегатов. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.
Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно прослушать по ссылке. Набор распространяют по лицензии CC BY-SA.
LibriSpeech
Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из проекта «Гутенберг».
Помимо самого датасета, на сайте можно скачать все MP3-файлы с записями (это 87 Гбайт) и метаданные к ним. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на kaldi-asr.org.
Million Song Dataset
Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть», используя код, предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года владеет Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.
Вся база весит около 300 Гбайт. Но авторы предлагают небольшую тестовую выборку из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых можно выделить: исполнителя, жанр, дату релиза, настроение и другие.