- PVSM.RU - https://www.pvsm.ru -

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons

Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.

Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons - 1 [1]
Фото Emily Morter [2] / Unsplash


AudioSet [3]

Этот набор данных курируют инженеры из лаборатории Machine Perception [4], являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на 632 класса [5], которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.

AudioSet предлагает три набора: тестовый [6], сбалансированный [7] и несбалансированный [8]. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.

Данные для скачивания представлены в двух форматах [9]: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль — youtube-dl [10]. Датасет распространяют по лицензии CC BY 4.0 [11]. За обновлениями можно следить в группе Google: audioset-users [12].


MIMII Dataset [13]

Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих неисправности индустриальных агрегатов [14]. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.

Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.

Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно прослушать по ссылке [15]. Набор распространяют по лицензии CC BY-SA [16].


Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons - 2
Фото Nathan Roser [17] / Unsplash


LibriSpeech [18]

Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из проекта «Гутенберг» [19].

Помимо самого датасета [20], на сайте можно скачать все MP3-файлы [21] с записями (это 87 Гбайт) и метаданные к ним [22]. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на kaldi-asr.org [23].


Million Song Dataset [24]

Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть», используя код [25], предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года владеет [26] Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.

Вся база весит [27] около 300 Гбайт. Но авторы предлагают небольшую тестовую выборку [28] из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых можно выделить [29]: исполнителя, жанр, дату релиза, настроение и другие.


Больше подборок в нашем «Мире Hi-Fi»:

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons - 3 Где взять аудиосемплы для ваших проектов: подборка из девяти тематических ресурсов [30]
Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons - 4 12 тематических ресурсов с треками по лицензии Creative Commons [31]
Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons - 5 Где брать аудио для разработки игр и других коммерческих проектов [32]


До 5 апреля мы заморозили цены [33] на ряд товаров. Это — отличная возможность приобрести гаджет, который вы давно для себя присматривали. Например, акустику или «вертушку» до 25 тыс. руб.:

P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным сайтом «Аудиомании» [38], чтобы выбрать подходящий по вкусу аудиогаджет.

Автор: Audioman

Источник [39]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/351786

Ссылки в тексте:

[1] Image: https://habr.com/ru/company/audiomania/blog/495658/

[2] Emily Morter: https://unsplash.com/photos/8xAA0f9yQnE

[3] AudioSet: https://research.google.com/audioset/

[4] лаборатории Machine Perception: https://research.google.com/audioset/about.html

[5] 632 класса: https://research.google.com/audioset/dataset/index.html

[6] тестовый: http://storage.googleapis.com/us_audioset/youtube_corpus/v1/csv/eval_segments.csv

[7] сбалансированный: http://storage.googleapis.com/us_audioset/youtube_corpus/v1/csv/balanced_train_segments.csv

[8] несбалансированный: http://storage.googleapis.com/us_audioset/youtube_corpus/v1/csv/unbalanced_train_segments.csv

[9] в двух форматах: https://research.google.com/audioset/download.html

[10] youtube-dl: https://github.com/ytdl-org/youtube-dl

[11] CC BY 4.0: https://creativecommons.org/licenses/by/4.0/

[12] audioset-users: https://groups.google.com/forum/#!forum/audioset-users

[13] MIMII Dataset: https://zenodo.org/record/3384388#.XogitY8a-Un

[14] неисправности индустриальных агрегатов: https://habr.com/ru/company/audiomania/blog/472982/

[15] прослушать по ссылке: https://spectralplex.com/free-malfunctioning-industrial-machinery-audio-samples/

[16] CC BY-SA: https://creativecommons.org/licenses/by-sa/4.0/

[17] Nathan Roser: https://unsplash.com/photos/3O88ocdftCo

[18] LibriSpeech: http://www.openslr.org/12/

[19] проекта «Гутенберг»: https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82_

[20] самого датасета: http://www.openslr.org/resources/12/dev-clean.tar.gz

[21] все MP3-файлы: http://www.openslr.org/resources/12/original-mp3.tar.gz

[22] метаданные к ним: http://www.openslr.org/resources/12/raw-metadata.tar.gz

[23] kaldi-asr.org: http://www.kaldi-asr.org/downloads/build/6/trunk/egs/

[24] Million Song Dataset: http://millionsongdataset.com/

[25] используя код: https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital

[26] владеет: http://the.echonest.com/pressreleases/spotify-acquires-echo-nest/

[27] весит: http://millionsongdataset.com/pages/getting-dataset

[28] тестовую выборку: http://millionsongdataset.com/pages/getting-dataset#subset

[29] можно выделить: http://millionsongdataset.com/pages/tasks-demos/

[30] Где взять аудиосемплы для ваших проектов: подборка из девяти тематических ресурсов: https://www.audiomania.ru/content/art-6670.html

[31] 12 тематических ресурсов с треками по лицензии Creative Commons: https://www.audiomania.ru/content/art-6638.html

[32] Где брать аудио для разработки игр и других коммерческих проектов: https://www.audiomania.ru/content/art-6948.html

[33] заморозили цены: https://www.audiomania.ru/hot_price/

[34] ELAC Debut B5.2: https://www.audiomania.ru/polochnaya_akustika/elac/elac_debut_b5-2.html

[35] Одно из лучших произведений: https://www.audiomania.ru/content/art-6597.html

[36] Lenco L-87: https://www.audiomania.ru/proigryvatel_vinila/lenco/lenco_l-87.html

[37] Когда нужно с чего-то начать: https://www.audiomania.ru/content/art-7198.html

[38] сайтом «Аудиомании»: https://www.audiomania.ru/

[39] Источник: https://habr.com/ru/post/495658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=495658