- PVSM.RU - https://www.pvsm.ru -
Так или иначе наиболее важным ресурсом в сетях передачи данных является пропускная способность каналов связи. Помимо увеличения максимальной пропускной способности каналов связи и их числа очевидно, что имеет смысл оптимизировать использование уже имеющихся. Например, применяя алгоритмы сжатия. Для каждого случая наиболее оптимальный алгоритм (с точки зрения вычислительной сложности, коэффициента сжатия и т.п.) может быть своим.
Особенностью сжатия звука является субъективность её восприятия человеком. Это одновременно даёт возможность исключать незначительную информацию из сигнала, но и усложняет алгоритм сжатия.
Для того, чтобы достичь наибольшего коэффициента сжатия при минимальных потерях субъективного качества необходимо знать законы его восприятия. Этим занимается Психоакустика [1].
При использовании психоакустических свойств для сжатия традиционные способы оценки качества уже не подходят. Так, например, соотношение сигнал/шум становится практически бесполезным, т.к. сжатие происходит без учёта тех частей, которые человек не воспринимает. Таким образом, оценка качества так же должна учитывать свойства слухового аппарата человека.
Под катом будут рассмотрены некоторые свойства речевых сигналов и особенностей их восприятия человеком, объективные и субъективные способы оценки качества этих сигналов.
P.S. В данной статье использована моя дипломная работа, защищённая в 2011 году в Московском Авиационном Институте на факультете Радиоэлектроники Летательных Аппаратов каф. 402. Ранее работа нигде не публиковалась.
В общем случае под речевым сигналом в телекоммуникационных системах подразумевается процесс, выполняющий функцию передачи речевого сообщения. Это могут быть акустические, механические, электрические и другие процессы. Речевое сообщение обычно создается в
В дальнейшем сигнал может подвергаться различным преобразованиям, оставаясь электрическим. В одних случаях электрический сигнал после усиления непосредственно поступает в электроакустический преобразователь, в других случаях после ряда преобразований по форме (модуляция и демодуляция, квантование, кодирование, компандирование и т. п.) в конце концов тоже как правило превращается в акустический сигнал, однако, сигнал может остаться цифровым, например, при задачах распознавания речи. Акустический сигнал, воздействуя на барабанную перепонку уха, превращается в механический сигнал, а во внутреннем ухе — в сигнал нервной системы. Этот сигнал в центральной нервной системе как бы расшифровывается, в результате чего воссоздается первоначальное сообщение. В ряде случаев это сообщение может отличаться от исходного, что связано с искажениями в системах связи.
Частота звуковой волны может варьироваться очень сильно, но человек воспринимает частоты от 20 до 22 000 Гц (длина волны от 1,56 см до 17,19 м). Динамический диапазон уровней громкости, воспринимаемых человеком очень большой.
Экспериментально установлено, что мощность самого слабого различимого звука составляет 1 мкВт. Существует также шкала громкости в единицах звукового давления, где за нулевой уровень принято давление 10^−5 Н/см2. Для этой шкалы используется обозначение dB SPL (Sound Pressure Level – SPL).
Практически передача речевого сообщения по электрической связи решается посредством цифрового представления, обработки и передачи по каналу связи речевого сигнала — акустической волны, представленной в виде электрического колебания. В таком случае речь представляет собой колебания сложной формы, зависящих от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Под частотным диапазоном речи понимают ширину полосы частот, занимаемой речевым сигналом. Он заключается в диапазоне частот от 100 до 8000 Гц. Однако в соответствии с рекомендациями МККТТ (Международный консультационный комитет по телефонии и телеграфии) при преобразовании и обработке сигнала ограничиваются интервалом частот от 300 до 3400 Гц.
Как уже было отмечено — слуховой аппарат человека воспринимает звуки частота которых находится в интервале от 20 до 22 000 Гц. Однако
чувствительность человеческого уха не является одинаковой во всем воспринимаемом диапазоне.
На рисунке приведены области слухового восприятия, в том числе соответствующие речи и музыке:
Частотный диапазон человеческой речи располагается приблизительно в интервале от 100 до 8000 Гц.
Существование порога слышимости является основой для построения алгоритмов сжатия звука с потерями.
Кроме того, для эффективного сжатия используются ещё два свойства органов слуха человека: частотное маскирование и временное маскирование.
Частотное (слуховое) маскирование происходит тогда, когда нормально слышимый звук накрывается другим громким звуком с близкой частотой. На рисунке схематично изображен маскирующий и маскируемый звуки:
Слышимый (маскирующий) звук приподнимает порог слышимости в своей окрестности (порог слышимости при маскировании). В результате звук,
показанный пунктирной линией становится не слышен, т. к. он маскируется более громким звуком. Это свойство используется при сжатии. Сигналы, соответствующие таким звукам просто удаляются из массива данных, поскольку они все равно не будут услышаны. Частотное маскирование зависит от частоты сигнала. Оно варьируется от 100 Гц на низких слышимых частотах до 4000 Гц на высоких. Следовательно, область слышимых частот может быть разделена на несколько критических полос, в пределах которых падает чувствительность уха.
Критические полосы — ещё одна характеристика звука наряду с частотой. В отличие от частоты критические полосы определяются в соответствии со слуховым восприятием.
№ | Область | № | Область | № | Область | № | Область | № | Область |
---|---|---|---|---|---|---|---|---|---|
1 | 0-100 | 6 | 510-630 | 11 | 1270-1480 | 16 | 2700-3150 | 21 | 6400-7700 |
2 | 100-200 | 7 | 630-770 | 12 | 1480-1720 | 17 | 3150-3700 | 22 | 7700-9500 |
3 | 200-300 | 8 | 770-920 | 13 | 1720-2000 | 18 | 3700-4400 | 23 | 9500-12000 |
4 | 300-400 | 9 | 920-1080 | 14 | 2000-2320 | 19 | 4400-5300 | 24 | 12000-15500 |
5 | 400-510 | 10 | 1080-1270 | 15 | 2320-2700 | 20 | 5300-6400 | 25 | 15500-23500 |
Критические полосы можно описать следующим образом: из-за ограниченности слухового восприятия звуковых частот порог слышимости
частоты f приподнимается соседним звуком, если звук находится в критической полосе f. Ширина критической полосы называется её размером.
Временное маскирование наблюдается, когда громкому звуку частоты f по времени предшествует или за ним следует менее громкий звук близкой частоты (а также при одновременном звуке близкой частоты). Маскировка предшествующего звука проявляется на интервале не более 10 мс, тогда как последующий звук может быть маскирован на интервале от 100 до 200 мс.
Учитывая аудиторию портала, рассматривать процессы дискретизации и квантования особого смысла нет.
Методы оценки качества системы передачи звукового сигнала в основном определяются назначением этой системы (речь, музыка и т.п.). Общей чертой для этих систем является то, что все они в конечном итоге приходят к системе слухового восприятия человека. При передаче по каналам связи речь рассматривается как случайный процесс, характеристики которого определяют параметры передаваемого сигнала (динамический диапазон, полосу, отношение сигнал/шум). Все эти параметры поддаются измерению и могут быть точно определены. Однако, учитывая, что с другой стороны речевой сигнал воспринимается человеком, следует отметить, что с точки зрения человека речевой сигнал оценивается субъективно, подчиняясь законам психофизиологии слуха. Таким образом мы получаем следующую картину: качество речевого сигнала объективно оценивается рядом показателей, которые никогда не смогут полноценно заменить систему восприятия звука человеком. Не учитывая нюансы непосредственно передачи речевого сигнала, можно сказать, что объективная оценка качества речи должна коррелировать с субъективной оценкой.
Качество кодека может оцениваться двумя критериями:
Поскольку строгие математические соотношения, устанавливающие связь между объективными параметрами звукового тракта и восприятием, до сих пор не получены, то ни один из существующих методов не может дать точной оценки качества звучания. В настоящий момент существуют три типа методов оценки качества звуковых сигналов: субъективный, объективный и психоакустический.
Для оценки искажений сигнала производятся субъективно-статистические испытания (ССИ) с помощью группы экспертов.
Субъективные оценки качества основываются на статистической обработке субъективных оценок качества достаточно большого числа слушателей-экспертов. Эти оценки существенно зависят от возраста и пола диктора, скорости произнесения фраз и других обстоятельств. Тесты при получении субъективных оценок проводят с имитацией реальных условий, например, посторонний шум, фоновая речь других людей и т. п. Количественные результаты этих тестов отображают усредненное качество, уровень усилий слушателя, разборчивость, естественность звучания.
Каждый отдельный исход ССИ — случайное событие, и для анализа результатов применяется аппарат теории вероятностей и математической статистики. Однако, даже учитывая эти меры, точно повторить результаты испытаний невозможно.
Средняя экспертная оценка MOS (Mean Opinion Score) — это субъективное измерение, определенное в рекомендации P.800 МСЭ-Т для оценки качества передачи в телефонных сетях.
Для различных задач могут использоваться разные 5-балльные шкалы оценок категорий. Три наиболее используемых в исследованиях МСЭ-Т шкалы мнений:
Качество речи | Оценка |
---|---|
Отличное | 5 |
Хорошее | 4 |
Удовлетворительное | 3 |
Посредственное | 2 |
Плохое | 1 |
Усилие, требующееся для понимания смысла фраз | Оценка |
---|---|
Возможно полное расслабление, не требуется никакого усилия | 5 |
Необходимо внимание, не требует заметного усилия | 4 |
Требуется умеренное усилие | 3 |
Требуется значительное усилие | 2 |
Смысл непонятен при любых условиях | 1 |
Предпочтение по громкости | Оценка |
---|---|
Значительно громче предпочтительного уровня | 5 |
Громче предпочтительного уровня | 4 |
Предпочтительный уровень | 3 |
Тише предпочтительного уровня | 2 |
Значительно тише предпочтительного уровня | 1 |
Вычисленная по оценкам величина (средняя оценка мнений) обозначается
символами MOS. Оценки MOS приведены в таблице:
Субъективная оценка качества звучания речи |
Уровень восприятия речевой информации | Оценка |
---|---|---|
Отлично | Речь воспринимается полностью и без усилий | 5 |
Хорошо | Речь воспринимается свободно, без ощутимых усилий | 4 |
Удовлетворительно | Речь воспринимается с умеренными усилиями, наличие дефектов неоспоримо | 3 |
Плохо | Речь воспринимается вниманием | 2 |
Очень плохо | Речь не воспринимается полностью или частично | 1 |
Абсолютные значения MOS зависят от контекста тестов, на них оказывают влияние различия в уровне знания языка и т. д.
Объективные методы предлагают менее трудоемкие способы по сравнению с субъективными. Объективные методы основываются на оценке степени отличия кодированного и исходного сигналов.
Параметры многообразны и для различных типов кодирования могут отличаться принципиально. Несмотря на то, что некоторая корреляция между объективными показателями и субъективным качеством есть, однозначно судить о субъективном качестве нельзя, чем, собственно, и объясняется разный для каждого из кодеков способа оценки качества. Таким образом, очевидно, что универсального объективного метода оценки субъективного качества на данный момент не существует.
Наиболее распространенной оценкой является соотношение сигнал/шум. Этот метод также называют критерием общего отношения сигнал/шум. Он учитывает общее отношение мощности сигнала и шума на всей длительности сигнала. Однако при низкой интенсивности полезного сигнала на каком либо отрезке он может быть замаскирован другим участком сигнала с большей интенсивностью полезного сигнала, что в конечном итоге искажает оценку.
Является развитием метода сотношения сигнал/шум. В этом случае оценка отношения сигнал/шум производится на интервалах от 15 до 20 мс, что позволяет получить более точную оценку в целом за счёт того, что неравномерная интенсивность сигнала не исказит всей картины в целом.
Психоакустические методы оценки качества учитывают особенности восприятия человеческого восприятия звука в целом и речи в частности. Особенность данных методов в том, что оценивается только субъективное качество сигнала с помощью технических и программных средств. Таким образом, строго говоря, они относятся к объективным методам, но построены исходя из особенностей субъективного восприятия звука человеком.
По мере развития способов устранения избыточности звуковых сигналов оценивать качество объективными параметрами становилось невозможным, а субъективно-статистические испытания оставались (и остаются) весьма трудоемкими. Устранение избыточности основывалось на особенностях восприятия звука и речи человеком, что послужило поводом для применения знаний об этих особенностях уже в методах оценки качества.
Задача любого метода оценки качества речевого сигнала в том, чтобы достичь высокой степени корреляции с субъективно-статистическими испытаниями, которые до сих пор остается наиболее точной оценкой качества речи.
Большинство методов основано на сравнении оригинального и кодированного сигналов с помощью некоторой психоакустической модели. Оценивается степень заметности искажений в кодированном сигнале для человека. Психоакустическая модель это модель, которая преобразует звуковой сигнал в его внутреннее представление с точки зрения слухового аппарата человека, которое и сравнивается с внутренним представлением исходного сигнала.
Наиболее распространенными является взвешенное искажение спектра (WSS) и оценка PESQ, определенная в рекомендации МСЭ-Т P.862 [3].
Метод WSS оценивает искажения спектра в 25 критических полосах слуха между оригинальным и искаженным сегментами сигнала.
Сначала определяется энергия сигнала в каждой из 25 критических полос и определяется пиковая критическая полоса, энергия которой больше остальных. После этого, учитывая информацию о пике, определяется весовой коэффициент каждой критической полосы. Далее оценка формируется учитывая вес и энергию каждой критической полосы.
Данный алгоритм представляет собой объективную методику определения качества речевой связи в телефонных системах, которая прогнозирует результаты субъективной оценки качества этого вида связи слушателями-экспертами. Для определения качества передачи речи в PESQ предусмотрено сравнение входного, или эталонного, сигнала с его искаженной версией на выходе системы связи. Этот процесс схематично показан на рисунке:
Результатом сравнения входного и выходного сигналов является оценка качества связи, которая аналогична усредненной субъективной оценке MOS (Mean Opinion Score), определяемой группой слушателей-экспертов согласно спецификации МСЭ-Т P.800. Оценки PESQ калибруются с использованием огромной базы данных оценок MOS.
В PESQ заложено множество новых разработок, что выгодно отличает его предыдущих алгоритмов оценки качества работы речевых кодеков, например, PSQM и MNB [МСЭ-Т P.861]. Эти инновации дают возможность уверенно использовать PESQ как для определения качества сквозной (end-to-end) передачи речи, так и для оценки влияния на качество связи отдельных элементов сетевого оборудования, включая кодеки.
В процессе разработки стандарта PESQ специалисты МСЭ-Т отбирали лучшие методы определения качества речевой связи с точки зрения корреляции даваемых ими результатов с оценками MOS при различных условиях связи, что является гарантией хорошей работы стандартизированного алгоритма при тестировании обычных (фиксированных и мобильных) сетей и систем передачи пакетных данных.
В алгоритме PESQ учитываются следующие причины ухудшения качества сигнала: искажение его при кодировании, ошибки при передаче, потеря пакетов, время задержки передачи пакетов и флуктуация этого времени, фильтрация сигнала в аналоговых сетевых компонентах.
Процесс обработки сигналов в PESQ:
Таким образом, алгоритм дает два параметра искажений, в которых просуммированы значения ошибок каждого типа. На конечном этапе работы алгоритма данные параметры искажений преобразуются в оценку качества связи, которая является линейной комбинацией средних значений симметричных и асимметричных искажений.
Алгоритм PESQ оценивает качество речи по стандартизированной в телекоммуникационной отрасли пятибалльной шкале – от 1 до 5 [МСЭ-Т P.800]. Однако оценка PESQ не превышает 4.5, поскольку обычно это максимальный показатель, получаемый путем субъективного тестирования MOS.
Оценка PESQ характеризует восприятие пользователями качества связи. Высшая оценка, равная 4,5, означает, что алгоритм не выявил никаких искажений.
Автор: ALyarskiy
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/algoritmy/32385
Ссылки в тексте:
[1] Психоакустика: http://ru.wikipedia.org/wiki/%D0%9F%D1%81%D0%B8%D1%85%D0%BE%D0%B0%D0%BA%D1%83%D1%81%D1%82%D0%B8%D0%BA%D0%B0
[2] мозгу: http://www.braintools.ru
[3] МСЭ-Т P.862: http://www.itu.int/rec/T-REC-P.862-200102-I/en
[4] МСЭ-Т P.800: http://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-P.862-200102-I!!SOFT-ZST-E&type=items
[5] Источник: http://habrahabr.ru/post/177099/
Нажмите здесь для печати.