Способы оценки субъективного качества речи

в 16:30, , рубрики: ip-телефония, pesq, wss, Алгоритмы, речевые технологии, телефония, метки: , ,

Так или иначе наиболее важным ресурсом в сетях передачи данных является пропускная способность каналов связи. Помимо увеличения максимальной пропускной способности каналов связи и их числа очевидно, что имеет смысл оптимизировать использование уже имеющихся. Например, применяя алгоритмы сжатия. Для каждого случая наиболее оптимальный алгоритм (с точки зрения вычислительной сложности, коэффициента сжатия и т.п.) может быть своим.
Особенностью сжатия звука является субъективность её восприятия человеком. Это одновременно даёт возможность исключать незначительную информацию из сигнала, но и усложняет алгоритм сжатия.
Для того, чтобы достичь наибольшего коэффициента сжатия при минимальных потерях субъективного качества необходимо знать законы его восприятия. Этим занимается Психоакустика.
При использовании психоакустических свойств для сжатия традиционные способы оценки качества уже не подходят. Так, например, соотношение сигнал/шум становится практически бесполезным, т.к. сжатие происходит без учёта тех частей, которые человек не воспринимает. Таким образом, оценка качества так же должна учитывать свойства слухового аппарата человека.

Под катом будут рассмотрены некоторые свойства речевых сигналов и особенностей их восприятия человеком, объективные и субъективные способы оценки качества этих сигналов.

P.S. В данной статье использована моя дипломная работа, защищённая в 2011 году в Московском Авиационном Институте на факультете Радиоэлектроники Летательных Аппаратов каф. 402. Ранее работа нигде не публиковалась.

Речевой сигнал и его основные свойства

В общем случае под речевым сигналом в телекоммуникационных системах подразумевается процесс, выполняющий функцию передачи речевого сообщения. Это могут быть акустические, механические, электрические и другие процессы. Речевое сообщение обычно создается в мозгу человека. Затем оно превращается в сигналы нервной системы, управляющие артикуляционными движениями органа речи. В свою очередь эти движения управляют формированием речевых сигналов в речеобразующем тракте. Речеобразующий тракт состоит из ларингальных, фарингальных, ротовых и носовых полостей, объемы и упругость стенок которых меняются во времени. Изменения конфигурации речеобразующего тракта в процессе произнесения звуков речи воздействуют на проходящую через тракт акустическую волну. Полученные сигналы излучаются в окружающее пространство в виде акустического сигнала. Далее акустический сигнал в тракте передачи телекоммуникационной системы преобразуется в электрический сигнал.
В дальнейшем сигнал может подвергаться различным преобразованиям, оставаясь электрическим. В одних случаях электрический сигнал после усиления непосредственно поступает в электроакустический преобразователь, в других случаях после ряда преобразований по форме (модуляция и демодуляция, квантование, кодирование, компандирование и т. п.) в конце концов тоже как правило превращается в акустический сигнал, однако, сигнал может остаться цифровым, например, при задачах распознавания речи. Акустический сигнал, воздействуя на барабанную перепонку уха, превращается в механический сигнал, а во внутреннем ухе — в сигнал нервной системы. Этот сигнал в центральной нервной системе как бы расшифровывается, в результате чего воссоздается первоначальное сообщение. В ряде случаев это сообщение может отличаться от исходного, что связано с искажениями в системах связи.
Частота звуковой волны может варьироваться очень сильно, но человек воспринимает частоты от 20 до 22 000 Гц (длина волны от 1,56 см до 17,19 м). Динамический диапазон уровней громкости, воспринимаемых человеком очень большой.

Поэтому при измерении громкости звука используют логарифмическую шкалу

Уровень=10*lg(P1/P2) [dB]

Экспериментально установлено, что мощность самого слабого различимого звука составляет 1 мкВт. Существует также шкала громкости в единицах звукового давления, где за нулевой уровень принято давление 10^−5 Н/см2. Для этой шкалы используется обозначение dB SPL (Sound Pressure Level – SPL).
Практически передача речевого сообщения по электрической связи решается посредством цифрового представления, обработки и передачи по каналу связи речевого сигнала — акустической волны, представленной в виде электрического колебания. В таком случае речь представляет собой колебания сложной формы, зависящих от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Под частотным диапазоном речи понимают ширину полосы частот, занимаемой речевым сигналом. Он заключается в диапазоне частот от 100 до 8000 Гц. Однако в соответствии с рекомендациями МККТТ (Международный консультационный комитет по телефонии и телеграфии) при преобразовании и обработке сигнала ограничиваются интервалом частот от 300 до 3400 Гц.

Субъективное восприятие звука

Как уже было отмечено — слуховой аппарат человека воспринимает звуки частота которых находится в интервале от 20 до 22 000 Гц. Однако
чувствительность человеческого уха не является одинаковой во всем воспринимаемом диапазоне.
На рисунке приведены области слухового восприятия, в том числе соответствующие речи и музыке:
Области слухового восприятия
Частотный диапазон человеческой речи располагается приблизительно в интервале от 100 до 8000 Гц.
Существование порога слышимости является основой для построения алгоритмов сжатия звука с потерями.

Частотное маскирование

Кроме того, для эффективного сжатия используются ещё два свойства органов слуха человека: частотное маскирование и временное маскирование.
Частотное (слуховое) маскирование происходит тогда, когда нормально слышимый звук накрывается другим громким звуком с близкой частотой. На рисунке схематично изображен маскирующий и маскируемый звуки:
Частотное маскирование
Слышимый (маскирующий) звук приподнимает порог слышимости в своей окрестности (порог слышимости при маскировании). В результате звук,
показанный пунктирной линией становится не слышен, т. к. он маскируется более громким звуком. Это свойство используется при сжатии. Сигналы, соответствующие таким звукам просто удаляются из массива данных, поскольку они все равно не будут услышаны. Частотное маскирование зависит от частоты сигнала. Оно варьируется от 100 Гц на низких слышимых частотах до 4000 Гц на высоких. Следовательно, область слышимых частот может быть разделена на несколько критических полос, в пределах которых падает чувствительность уха.

Критические полосы

Критические полосы — ещё одна характеристика звука наряду с частотой. В отличие от частоты критические полосы определяются в соответствии со слуховым восприятием.

25 приближенных областей критических полос приведены в таблице

Область Область Область Область Область
1 0-100 6 510-630 11 1270-1480 16 2700-3150 21 6400-7700
2 100-200 7 630-770 12 1480-1720 17 3150-3700 22 7700-9500
3 200-300 8 770-920 13 1720-2000 18 3700-4400 23 9500-12000
4 300-400 9 920-1080 14 2000-2320 19 4400-5300 24 12000-15500
5 400-510 10 1080-1270 15 2320-2700 20 5300-6400 25 15500-23500

Критические полосы можно описать следующим образом: из-за ограниченности слухового восприятия звуковых частот порог слышимости
частоты f приподнимается соседним звуком, если звук находится в критической полосе f. Ширина критической полосы называется её размером.

Временное маскирование

Временное маскирование
Временное маскирование наблюдается, когда громкому звуку частоты f по времени предшествует или за ним следует менее громкий звук близкой частоты (а также при одновременном звуке близкой частоты). Маскировка предшествующего звука проявляется на интервале не более 10 мс, тогда как последующий звук может быть маскирован на интервале от 100 до 200 мс.

Преобразование речевых сигналов в цифровой вид

Учитывая аудиторию портала, рассматривать процессы дискретизации и квантования особого смысла нет.

Методы оценки качества речи

Методы оценки качества системы передачи звукового сигнала в основном определяются назначением этой системы (речь, музыка и т.п.). Общей чертой для этих систем является то, что все они в конечном итоге приходят к системе слухового восприятия человека. При передаче по каналам связи речь рассматривается как случайный процесс, характеристики которого определяют параметры передаваемого сигнала (динамический диапазон, полосу, отношение сигнал/шум). Все эти параметры поддаются измерению и могут быть точно определены. Однако, учитывая, что с другой стороны речевой сигнал воспринимается человеком, следует отметить, что с точки зрения человека речевой сигнал оценивается субъективно, подчиняясь законам психофизиологии слуха. Таким образом мы получаем следующую картину: качество речевого сигнала объективно оценивается рядом показателей, которые никогда не смогут полноценно заменить систему восприятия звука человеком. Не учитывая нюансы непосредственно передачи речевого сигнала, можно сказать, что объективная оценка качества речи должна коррелировать с субъективной оценкой.
Качество кодека может оцениваться двумя критериями:

  1. Cохранение объективного качества
    Определение искажений с помощью аппаратных средств.
  2. Сохранение субъективного качества
    Определение заметности искажений путём субъективно-статистических
    испытаний.

Поскольку строгие математические соотношения, устанавливающие связь между объективными параметрами звукового тракта и восприятием, до сих пор не получены, то ни один из существующих методов не может дать точной оценки качества звучания. В настоящий момент существуют три типа методов оценки качества звуковых сигналов: субъективный, объективный и психоакустический.

Субъективные методы

Для оценки искажений сигнала производятся субъективно-статистические испытания (ССИ) с помощью группы экспертов.
Субъективные оценки качества основываются на статистической обработке субъективных оценок качества достаточно большого числа слушателей-экспертов. Эти оценки существенно зависят от возраста и пола диктора, скорости произнесения фраз и других обстоятельств. Тесты при получении субъективных оценок проводят с имитацией реальных условий, например, посторонний шум, фоновая речь других людей и т. п. Количественные результаты этих тестов отображают усредненное качество, уровень усилий слушателя, разборчивость, естественность звучания.
Каждый отдельный исход ССИ — случайное событие, и для анализа результатов применяется аппарат теории вероятностей и математической статистики. Однако, даже учитывая эти меры, точно повторить результаты испытаний невозможно.
Средняя экспертная оценка MOS (Mean Opinion Score) — это субъективное измерение, определенное в рекомендации P.800 МСЭ-Т для оценки качества передачи в телефонных сетях.
Для различных задач могут использоваться разные 5-балльные шкалы оценок категорий. Три наиболее используемых в исследованиях МСЭ-Т шкалы мнений:

Шкала качества при прослушивании

Качество речи Оценка
Отличное 5
Хорошее 4
Удовлетворительное 3
Посредственное 2
Плохое 1

Шкала усилий при прослушивании

Усилие, требующееся для понимания смысла фраз Оценка
Возможно полное расслабление, не требуется никакого усилия 5
Необходимо внимание, не требует заметного усилия 4
Требуется умеренное усилие 3
Требуется значительное усилие 2
Смысл непонятен при любых условиях 1

Шкала предпочтений по громкости

Предпочтение по громкости Оценка
Значительно громче предпочтительного уровня 5
Громче предпочтительного уровня 4
Предпочтительный уровень 3
Тише предпочтительного уровня 2
Значительно тише предпочтительного уровня 1

Вычисленная по оценкам величина (средняя оценка мнений) обозначается
символами MOS. Оценки MOS приведены в таблице:

Субъективная оценка качества
звучания речи
Уровень восприятия речевой информации Оценка
Отлично Речь воспринимается полностью и без усилий 5
Хорошо Речь воспринимается свободно, без ощутимых усилий 4
Удовлетворительно Речь воспринимается с умеренными усилиями, наличие дефектов неоспоримо 3
Плохо Речь воспринимается вниманием 2
Очень плохо Речь не воспринимается полностью или частично 1

Абсолютные значения MOS зависят от контекста тестов, на них оказывают влияние различия в уровне знания языка и т. д.

Объективные методы

Объективные методы предлагают менее трудоемкие способы по сравнению с субъективными. Объективные методы основываются на оценке степени отличия кодированного и исходного сигналов.
Параметры многообразны и для различных типов кодирования могут отличаться принципиально. Несмотря на то, что некоторая корреляция между объективными показателями и субъективным качеством есть, однозначно судить о субъективном качестве нельзя, чем, собственно, и объясняется разный для каждого из кодеков способа оценки качества. Таким образом, очевидно, что универсального объективного метода оценки субъективного качества на данный момент не существует.

Соотношение сигнал/шум (SNR)

Наиболее распространенной оценкой является соотношение сигнал/шум. Этот метод также называют критерием общего отношения сигнал/шум. Он учитывает общее отношение мощности сигнала и шума на всей длительности сигнала. Однако при низкой интенсивности полезного сигнала на каком либо отрезке он может быть замаскирован другим участком сигнала с большей интенсивностью полезного сигнала, что в конечном итоге искажает оценку.

Сегментное соотношение сигнал/шум (segSNR)

Является развитием метода сотношения сигнал/шум. В этом случае оценка отношения сигнал/шум производится на интервалах от 15 до 20 мс, что позволяет получить более точную оценку в целом за счёт того, что неравномерная интенсивность сигнала не исказит всей картины в целом.

Психоакустические методы

Психоакустические методы оценки качества учитывают особенности восприятия человеческого восприятия звука в целом и речи в частности. Особенность данных методов в том, что оценивается только субъективное качество сигнала с помощью технических и программных средств. Таким образом, строго говоря, они относятся к объективным методам, но построены исходя из особенностей субъективного восприятия звука человеком.
По мере развития способов устранения избыточности звуковых сигналов оценивать качество объективными параметрами становилось невозможным, а субъективно-статистические испытания оставались (и остаются) весьма трудоемкими. Устранение избыточности основывалось на особенностях восприятия звука и речи человеком, что послужило поводом для применения знаний об этих особенностях уже в методах оценки качества.
Задача любого метода оценки качества речевого сигнала в том, чтобы достичь высокой степени корреляции с субъективно-статистическими испытаниями, которые до сих пор остается наиболее точной оценкой качества речи.
Большинство методов основано на сравнении оригинального и кодированного сигналов с помощью некоторой психоакустической модели. Оценивается степень заметности искажений в кодированном сигнале для человека. Психоакустическая модель это модель, которая преобразует звуковой сигнал в его внутреннее представление с точки зрения слухового аппарата человека, которое и сравнивается с внутренним представлением исходного сигнала.
Наиболее распространенными является взвешенное искажение спектра (WSS) и оценка PESQ, определенная в рекомендации МСЭ-Т P.862.

Взвешенное искажение спектра (WSS)

Метод WSS оценивает искажения спектра в 25 критических полосах слуха между оригинальным и искаженным сегментами сигнала.
Сначала определяется энергия сигнала в каждой из 25 критических полос и определяется пиковая критическая полоса, энергия которой больше остальных. После этого, учитывая информацию о пике, определяется весовой коэффициент каждой критической полосы. Далее оценка формируется учитывая вес и энергию каждой критической полосы.

Оценка PESQ

Данный алгоритм представляет собой объективную методику определения качества речевой связи в телефонных системах, которая прогнозирует результаты субъективной оценки качества этого вида связи слушателями-экспертами. Для определения качества передачи речи в PESQ предусмотрено сравнение входного, или эталонного, сигнала с его искаженной версией на выходе системы связи. Этот процесс схематично показан на рисунке:

Обобщённая схема алгоритма PESQ

Результатом сравнения входного и выходного сигналов является оценка качества связи, которая аналогична усредненной субъективной оценке MOS (Mean Opinion Score), определяемой группой слушателей-экспертов согласно спецификации МСЭ-Т P.800. Оценки PESQ калибруются с использованием огромной базы данных оценок MOS.
В PESQ заложено множество новых разработок, что выгодно отличает его предыдущих алгоритмов оценки качества работы речевых кодеков, например, PSQM и MNB [МСЭ-Т P.861]. Эти инновации дают возможность уверенно использовать PESQ как для определения качества сквозной (end-to-end) передачи речи, так и для оценки влияния на качество связи отдельных элементов сетевого оборудования, включая кодеки.
В процессе разработки стандарта PESQ специалисты МСЭ-Т отбирали лучшие методы определения качества речевой связи с точки зрения корреляции даваемых ими результатов с оценками MOS при различных условиях связи, что является гарантией хорошей работы стандартизированного алгоритма при тестировании обычных (фиксированных и мобильных) сетей и систем передачи пакетных данных.
В алгоритме PESQ учитываются следующие причины ухудшения качества сигнала: искажение его при кодировании, ошибки при передаче, потеря пакетов, время задержки передачи пакетов и флуктуация этого времени, фильтрация сигнала в аналоговых сетевых компонентах.

Процесс обработки сигналов в PESQ:

Подробная схема алгоритма PESQ

  1. Выравнивание по уровню
    Для корректного сравнения входного и выходного речевых сигналов их уровень мощности нужно выравнивать. Это необходимо, поскольку входной сигнал не может быть какого-либо определенного уровня, и коэффициент усиления тестируемой системы неизвестен до проведения испытаний.
    В PESQ принято, что уровень прослушиваемого сигнала постоянен и равен 79 дБ звукового давления в точке ERP (Ear Reference Point) [МСЭ-Т P.830, раздел 8.1.2]. Для доведения до указанного уровня усиливаются оба сигнала – входной и выходной.
  2. Входное фильтрование
    Аналоговые соединения часто в той или иной степени фильтруют передаваемые по ним сигналы. Например, передающая часть телефонной трубки обычно фильтрует речевой сигнал, имея амплитудно-частотную характеристику (АЧХ), которая похожа на стандартную АЧХ Modified IRS (Intermediate Reference System) send [МСЭ-Т P.830]. Как правило, это допустимо, поскольку такого рода обработка сигнала оказывает меньшее влияние на качество связи, чем искажения сигнала, возникающие при его кодировании.
  3. Выравнивание по времени
    В системе связи может иметь место переменная задержка передачи сигналов. Чтобы корректно сравнивать входной и выходной сигналы, они должны быть выравнены относительно друг друга по времени. В PESQ моделируется прослушивание сигнала, а информации о времени задержки последнего в сети в нем нет. Для идентификации речевых частей сигнала и отбрасывания шума в PESQ выявляется голос.
    Выравнивание по времени производится в три этапа:

    • На первом этапе PESQ выравнивает большие фрагменты активной речи, идентифицируемые детектором голоса. Эти фрагменты могут содержать паузы, длительность которых не превышает заранее определенного порогового значения (200 мс). В этом процессе выявляется задержка передачи больших фрагментов выходного сигнала, сравниваемого с входным.
    • На втором этапе PESQ выравнивает частично совпадающие по времени небольшие участки речи (кадры). Этот процесс выявляет задержку, которая непостоянна в течение передачи большого фрагмента активной речи, в пакетных сетях такая задержка может быть весьма значительной.
    • Третий этап проводится после операции слухового преобразования. На этом этапе повторно выравниваются так называемые «плохие интервалы» (фрагменты речи с очень большими искажениями). Этот шаг повышает точность работы алгоритма при использовании небольшого числа файлов, при передаче которых неправильно определяется вариация задержки в ходе первоначального процесса выравнивания по времени.
  4. Слуховое преобразование
    Сравнению входного и выходного сигналов предшествует их слуховое преобразование, которое имитирует определенные особенности человеческого слуха. Это дает информацию о воспринимаемой громкости сигнала в зависимости от времени и частоты, представляемую как поверхность восприятия (sensation surface). Определение параметров искажений Разница между поверхностями восприятия входного и выходного файлов называется поверхностью ошибок (error surface); она указывает на все слышимые различия в звучании этих файлов, появляющиеся в тестируемой системе. Поверхность ошибок анализируется с учетом влияния на качество связи тех небольших искажений сигнала, которые не слышны на фоне сигналов большой громкости (эффект маскирования). На основании информации о позитивных и негативных ошибках рассчитываются два параметра искажений как нелинейные средние значения по определенным областям поверхности ошибок. Этими параметрами являются:

    • Абсолютные (симметричные) искажения абсолютную слышимую ошибку
    • Дополнительные (асимметричные) искажения – характеризуют слышимые ошибки, которые значительно громче входного сигнала

Таким образом, алгоритм дает два параметра искажений, в которых просуммированы значения ошибок каждого типа. На конечном этапе работы алгоритма данные параметры искажений преобразуются в оценку качества связи, которая является линейной комбинацией средних значений симметричных и асимметричных искажений.
Алгоритм PESQ оценивает качество речи по стандартизированной в телекоммуникационной отрасли пятибалльной шкале – от 1 до 5 [МСЭ-Т P.800]. Однако оценка PESQ не превышает 4.5, поскольку обычно это максимальный показатель, получаемый путем субъективного тестирования MOS.
Оценка PESQ характеризует восприятие пользователями качества связи. Высшая оценка, равная 4,5, означает, что алгоритм не выявил никаких искажений.

Использованные источники

  1. Сергеенко В.С., Баринов В.В., Сжатие данных, речи, звука и изображений в телекоммуникационных системах, 2009, ИП «РадиоСофт»
  2. Рихтер С.Г., Кодирование и передача речи в цифровых системах подвижной связи, 2009, Горячая линия — Телеком
  3. МСЭ-Т P.800

Автор: ALyarskiy

Источник

Поделиться

* - обязательные к заполнению поля