В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.
При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.
Рубрика «mfcc»
Обработка аудио на ESP32
2025-05-03 в 20:04, admin, рубрики: dsp, esp32-c3, MAX9814, mcsis, mfcc, u8g2, машинное обучениеКлассификация музыкальных композиций по исполнителям с помощью Скрытых Марковских Моделей
2018-03-19 в 8:14, admin, рубрики: hmm, mfcc, python, signal processing, Алгоритмы, машинное обучение
Скрытые марковские модели (Hidden Markov Models) с давних времен используются в распознавании речи. Благодаря мел-кепстральным коэффициентам (MFCC), появилась возможность откинуть несущественные для распознавания компоненты сигнала, значительно снижая размерность признаков. В интернете много простых примеров использования HMM с MFCC для распознавания простых слов.
После знакомства с этими возможностями появилось желание опробовать этот алгоритм распознавания в музыке. Так родилась идея задачи классификации музыкальных композиций по исполнителям. О попытках, какой-то магии и результатах будет рассказано в этом посте.
Читать полностью »
Текстонезависимая идентификация по голосу
2017-08-28 в 7:41, admin, рубрики: dsp, Matlab, mfcc, nnet, speaker identification, SVM, Алгоритмы, машинное обучение, ПрограммированиеЯ люблю истории про апокалипсис, про то, как нашу планету порабощают пришельцы, обезьяны или терминаторы, и с детства мечтал приблизить последний день человечества.
Однако, я не умею строить летающие тарелки или синтезировать вирусы, а потому речь пойдет про терминаторов, а точнее о том как этим трудягам помочь отыскать Джона Коннора.

Мой рукодельный терминатор будет несколько упрощён — он не сможет ходить, стрелять, говорить "I'll be back". Единственное на что он будет способен — распознать голос Коннора, ежели он его услышит (ну или, например, Черчилля, если его тоже надо будет найти).
Простейшее управление компьютером при помощи голоса
2017-01-16 в 4:07, admin, рубрики: accessibility, mfcc, MLP, мел-кепстральные коэффициенты, нейронные сети, парализованный, Работа со звуком, распознавание речи, шейник, метки: парализованный, шейник
"
Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.
Читать полностью »
Распознавание речи для чайников
2014-06-13 в 6:13, admin, рубрики: DCT, dtw, mfcc, speech recognition, Алгоритмы, Программирование, метки: DCT, dtw, mfcc, speech recognition 
В этой статье я хочу рассмотреть основы такой интереснейшей области разработки ПО как Распознавание Речи. Экспертом в данной теме я, естественно, не являюсь, поэтому мой рассказ будет изобиловать неточностями, ошибками и разочарованиями. Тем не менее, главной целью моего «труда», как можно понять из названия, является не профессиональный разбор проблемы, а описание базовых понятий, проблем и их решений. В общем, прошу всех заинтересовавшихся пожаловать под кат!
Кто там? — Идентификация человека по голосу
2012-05-24 в 21:01, admin, рубрики: mfcc, speech recognition, Алгоритмы, идентификация говорящего, Программирование, Работа со звуком, распознавание речи, метки: mfcc, speech recognition, идентификация говорящего, распознавание речи 
Здравствуй, дорогой читатель!
Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на статью о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.
Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.Читать полностью »
Мел-кепстральные коэффициенты (MFCC) и распознавание речи
2012-03-28 в 5:52, admin, рубрики: dsp, dtw, mfcc, Алгоритмы, Программирование, Работа со звуком, распознавание речи, метки: dsp, dtw, mfcc, распознавание речиНедавно я наткнулся на интересную статью, опубликованную rgen3, в которой описан DTW-алгоритм распознавания речи. В общих чертах, это сравнение речевых последовательностей с применением динамического программирования.
Заинтересовавшись темой, я попробовал применить этот алгоритм на практике, но на этом пути меня поджидало некоторое количество граблей. Прежде всего, что именно нужно сравнивать? Непосредственно звуковые сигналы во временной области — долго и не очень эффективно. Спектрограммы — уже быстрее, но не намного эффективнее. Поиски наиболее рационального представления привели меня к MFCC или Мел-частотным кепстральным коэффициентам, которые часто используются в качестве характеристики речевых сигналов. Здесь я попытаюсь объяснить, что они из себя представляют.Читать полностью »
