Основы цифрового звука

^[1]

Прим. перев.: сегодня мы публикуем перевод статьи из блога Итана Хайна – адъюнкт-профессора по направлению «музыкальные технологии» из Нью-Йоркского Университета. Мы уже публиковали перевод ^[2] одной из его статей (о визуализации музыки) и решили продолжить эту серию материалом об основах цифрового аудио (эта статья затрагивает базовые моменты превращения аналогового звука в цифровой и будет интересна в первую очередь тем, кто не знаком с этим процессом). Данная тематика обсуждалась и в одном ^[3] из наших подкастов.

Чтобы понять, как работает цифровой звук, вам нужно знать несколько вещей о физике звука. Анимация изображает, как распространяются звуковые волны от кругового источника звука – представьте, что это поверхность барабана или тарелки (музыкального инструмента).

Основы цифрового звука - 2

Как видите, звук – это волна, как рябь на поверхности водоема. Представьте, что ваше ухо находится в середине нижней части этой картинки. Давление воздуха на ваше внутреннее ухо ритмично то увеличивается, то уменьшается. Звук является результатом того, что ваш мозг ^[4] чувствует, насколько далеко происходит колебание и с какой частотой.

Если вы построите график изменения давления воздуха на ваше ухо с течением времени, то он будет выглядеть примерно так ^[5]:

Основы цифрового звука - 3

Мы увидим еще множество таких волн синусоидальной формы: она очень важна для понимания природы звука. Основная задача аудиозаписи – это перевести такую волновую форму в различные медиаформаты, которые можно сохранять, воспроизводить и управлять ими.

От звука к электричеству

Микрофоны работают точно так же, как и ваши уши, только вместо барабанной перепонки в микрофоне содержится маленькая, тонкая металлическая пластинка, прикрепленная к магниту. С изменением давления воздуха на пластинку, магнит покачивается вперед-назад и вырабатывает электрические колебания. Если вы нарисуете график изменения текущего напряжения, то форма волны будет выглядеть в точности как на графике давления воздуха на перепонку.

Существуют несколько различных технологий создания микрофонов. В некоторых микрофонах для вырабатывания тока вместо магнита используется конденсатор, который колеблется в соответствии с колебаниями воздуха. Такие микрофоны используют «фантомное питание» – вместо того, чтобы вырабатывать небольшой электрический ток, они регулируют тот ток, который уже течет через них. Также есть микрофоны, в которых используется небольшой кусочек пьезоэлектрического материала, который, колеблясь, меняет уровень напряжения.

От тока к «цифре»

Итак, теперь вы получили звук, представленный в виде электрического тока. В прошлом люди сохраняли его множеством способов: в качестве волнистых канавок на виниловых пластинках, фотокинопленках или в виде структурированных магнитных частиц на магнитной ленте. Компьютеры же хранят информацию об уровне тока, регулярно считывая уровень напряжения и сохраняя каждое значение как число. Детали этого процесса довольно сложны, но узнать хоть немного о том, как это работает, может быть полезно.

График, расположенный ниже, изображает кодово-импульсную модуляцию ^[6] – аналого-цифровое преобразование, используемое в аудиоформатах AIFF и WAV. Красная линия – это оригинальный аналоговый сигнал, который постоянно меняет свою амплитуду и поступает по кабелю от микрофона.

Основы цифрового звука - 4

Компьютер считывает уровень напряжения через постоянные временные интервалы, которые изображены на графике как вертикальные линии. Синие точки показывают считанный компьютером уровень напряжения в данный момент. Горизонтальные линии отображают другие возможные значения, которые компьютер может сохранить и считать; из всех этих возможных значений он всегда выбирает наиболее близкое к действительному. Аудиофайлы форматов AIFF и WAV представляют собой длинный (очень длинный) список чисел, которые являются значениями уровня напряжения.

Как вы могли догадаться, чем чаще компьютер считывает показания, и чем точнее оказывается каждое из них, тем качественнее будет звучать цифровая запись. Частота, с которой компьютер считывает показания, называется частотой дискретизации, а точность, с которой он это производит – квантованием. Я раскрою эти понятия в тексте ниже.

Частота дискретизации

Аналого-цифровые преобразователи считывают показания напряжения невероятно быстро. Стандарт CD-качества требует частоту дискретизации 44 100 считываний в секунду, или, говоря техническим языком, 44 100 Герц. Аудио в фильмах или на ТВ имеет частоту дискретизации 48 000 Герц. И это очень быстро! Ведущие записывающие студии иногда используют и намного более высокие частоты. Чем выше частота дискретизации, тем точнее вы можете передать ваш аналоговый сигнал и тем больший диапазон частот можно охватить. CD-стандарт в 44 100 Герц покрывает весь диапазон слышимости человека.

Битовая глубина (квантование)

Чтобы понять идею квантования, вам нужно узнать, как компьютеры хранят числа и другие виды информации в памяти. Память компьютера сделана из миллиардов крошечных электрических переключателей, которые могут находиться только в двух положениях: включено или выключено. Количество информации, которое может быть представлено положением одного такого переключателя называется битом. И что же можно сделать с битом? Ну, вы можете сохранить ответ на вопрос, в форме «да/нет» или же логическое утверждение: «правда/ложь». Или можно хранить два числа, к примеру, ноль и единицу.

Но что, если у вас есть два бита, два электрических переключателя? Получаются четыре возможные комбинации этих двух переключателей: 00, 01, 10, 11, и вы можете использовать эти комбинации, чтобы закодировать четыре числа, к примеру: ноль, один, два и три.

Если у вас три бита, то возможно получить восемь комбинаций: 000, 001, 010, 011, 100, 101, 110 и 111. Теперь можно хранить числа: ноль, один, два, три, четыре, пять, шесть, и семь. Используя четыре бита можно получить до шестнадцати комбинаций, с пятью – тридцать две. Каждый бит вдвое увеличивает количество чисел, которые можно закодировать.

Если ваш аналого-цифровой преобразователь имеет только один бит для представления сигнала, то точно представить сигнал в цифровом виде не получится. То же самое произойдет, если используются два бита выборки. График ниже показывает двухбитное аудио. Цифровая версия звуковой волны получается неточной и будет звучать ужасно, так как используются только четыре допустимых значения напряжения.

Основы цифрового звука - 5

Аудио с дискретизацией в три бита звучит немного лучше. Теперь компьютер может выбирать из восьми допустимых значений. Синяя цифровая волна все еще сильно отличается от красного аналогового оригинала, но немного приблизилась к нему:

Основы цифрового звука - 6

Первый график в этом разделе показывает четырехбитный звук с шестнадцатью возможными значениями каждого считывания. Этот график выглядит куда лучше. Компьютерные игры 80х годов прошлого века использовали восьмибитный звук – это означает, что в каждый момент считывания можно выбрать одно из 256 значений. Звук все еще кажется слишком фальшивым и «компьютерным», но теперь, хотя бы, можно что-то распознать.

Стандарт CD требует 16 бит для представления аудиозаписей. Это означает, что на каждое считывание приходится 65 536 различных значений. При такой битовой глубине ваше приближенное цифровое значение станет очень похоже на оригинальный аналоговый сигнал и будет довольно хорошо звучать. Еще более высокого качества звучания можно достичь, используя при записи 24-битное аудио, которое позволяет выбирать из 16 777 216 различных значений. С частотой в 44 100 считываний в секунду получится очень гладкая и правильная звуковая волна, которую сложно отличить от оригинальной аналоговой волны даже самым чутким слушателям.

Разумеется, чем больше битовая глубина, тем больше места требуется на диске для хранения всех этих чисел. Качественное 24-битное аудио требует в 256 раз больше места, чем 16-битное аудио. Так что всегда приходится выбирать между качеством и местом на диске. Теперь вы понимаете, почему аудиофайлы такие большие. При прослушивании 16-битного аудио с диска, воспроизводится примерно десять мегабайт информации за минуту, при прослушивании 24 битного – два с половиной гигабайта за минуту.

Как работает звукозаписывающая аппаратура

Самое сложное в звукозаписи – это подобрать правильный уровень сигнала. Если вы установите слишком низкую громкость микрофона, то получите слабовыраженные колебания напряжения. Затем, когда вы будете прослушивать запись, вы будете вынуждены сильно увеличивать громкость, чтобы расслышать её (запись), но вместе с этим увеличится и громкость записанного фонового шума от окружения или оборудования. Получившаяся дорожка будет звучать не лучшим образом. С другой стороны, если вы установите слишком высокую громкость микрофона, то скачки напряжения могут превысить те значения, которые сможет прочитать ваш аналого-цифровой преобразователь. Такое явление называется клиппинг – обрезание сигнала, и звучит оно просто чудовищно.

На графике ниже изображен сигнал, слишком громкий для данного записывающего устройства, а также два различных варианта его искривления.

Основы цифрового звука - 7

Аналоговые системы реагируют на перегрузку мягким ограничением уровня (soft clipping). Из-за этого звуковые волны сжимаются и добавляют некоторые гармоники к звуку. На самом деле мягкое ограничение может звучать довольно классно. Гитаристы намеренно перегружают свои усилители, чтобы воссоздать такой вид искажения, который отлично звучит и при воспроизведении с аудиоленты. В свою очередь, цифровые системы при перегрузке резко ограничивают уровень сигнала (hard clipping). Как следует из названия, такое ограничение полностью обрезает пики сигнала. Из-за этого в сигнале появляются ужасно звучащие высокие гармоники, и впоследствии от них невозможно избавиться. Таким образом, урезания цифрового сигнала лучше избегать.

Довольно сложно выставить ручку регулировки усилителя у звукозаписывающего устройства в нужное положение, в котором вы получите хороший сигнал и избежите клиппирования. Картинка ниже изображает индикаторы аудиоинтерфейса, который я использую в момент звукозаписи. Верхний индикатор показывает очень хороший уровень громкости с достаточным запасом мощности. Значение нижнего располагается прямо на границе клиппирования, поэтому, скорее всего, я его немного убавлю.

Основы цифрового звука - 8

Где же вы должны производить звукозапись? Это сильно зависит от того, какие помещения есть в вашем распоряжении. Лучшие место – это звукозаписывающие студии, но если у вас нет возможности попасть в одну из таких, есть и другие способы записать хороший звук. В видео ниже подробно рассказывается о звукозаписи в неидеальных условиях.

Форматы файлов

Полученную звукозапись можно сохранить в нескольких форматах. Можно начать с вышеупомянутых форматов AIFF и WAV. Они идентичны друг другу и просто хранят в себе список чисел в различном порядке. Основная проблема AIFF и WAV состоит в том, что они занимают очень много места. Есть несколько способов сжать аудиозаписи, чтобы уменьшить объем занимаемой памяти. Существуют две разновидности сжатия: сжатие без потерь и сжатие с потерями.

Сжатие без потерь

Возможно уменьшить размер файлов на компьютере, не потеряв важной информации. Хорошая аналогия – это условные обозначения стенографиста. Эта система используется репортерами, когда они заменяют различные слова короткими кодами. Условные обозначения занимают меньше места, чем английские слова, и по ним можно дословно воспроизвести все сказанное. Точно так же, как условные обозначения стенографистов являются сжатием без потерь для английского языка, форматы FLAC и Apple Lossless представляют собой способы подобного сжатия для аудио. FLAC и Apple Lossless занимают примерно в два раза меньше места, чем несжатые AIFF и WAV.

Сжатие с потерями

Можно сжать файлы до еще меньших размеров, если вы готовы пожертвовать качеством звука. Сжатие с потерями сродни краткому содержанию книги – вы поймете главную идею, но не воссоздадите целый текст во всех подробностях. MP3 – это наиболее известный аудиоформат сжатия с потерями. MP3-файл звучит не так хорошо, как несжатый оригинал, но может занимать в 10 раз меньше места или даже меньше. Чем больше вы жертвуете качеством, тем сильнее можно сжать файл. Недостатком является то, что когда качество потеряно, восстановить файл уже не получится.

Воспроизведение звука

Точно так же, как аналого-цифровые преобразователи переводят электрические сигналы в числа, цифро-аналоговые преобразователи переводят числа в электрические сигналы. Преобразователь считывает все показания напряжения в аудиофайле и посылает сигналы соответствующей силы по проводу к динамикам. Колебания тока идут по проводам и воздействуют на магнит в динамике, который прикреплен к тонкому бумажному или пластиковому конусу, вибрирующему вместе с ним. Вибрации конуса сотрясают воздух, который воздействует на ваше внутреннее ухо, и вы слышите воспроизведенный звук.

Автор: dmitrykabanov

Источник ^[7]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/zvuk/74877

Ссылки в тексте:

[1] Image: http://habrahabr.ru/company/audiomania/blog/243491/

[2] перевод: http://habrahabr.ru/company/audiomania/blog/235339/

[3] одном: http://habrahabr.ru/company/audiomania/blog/223681/

[4] мозг: http://www.braintools.ru

[5] так: http://yykov.wordpress.com/2014/07/16/what-is-sound/

[6] модуляцию: http://en.wikipedia.org/wiki/Pulse-code_modulation

[7] Источник: http://geektimes.ru/post/241620/

Нажмите здесь для печати.