- PVSM.RU - https://www.pvsm.ru -
Как связать звуковую и визуальную информацию? Этим вопросом часто задаются ученые и любители со всего света. Так, в феврале 2006 года новость о том, что ученым удалось воспроизвести звуки с глиняного горшка возрастом более 6500 лет, быстро разлетелась по всему интернету.
Гончар, якобы, нанес музыкальный ритм на горшок при его изготовлении. К сожалению, это оказалось неудачной первоапрельской шуткой бельгийского телевидения.
Однако Патрику Фистеру (Patrick Feaster) удалось [2] обработать запись, возраст которой превышает 1000 лет. По этому поводу в мае 2011 года он выступил на конференции ассоциации ARSC (Association for Recorded Sound Collections) с открытием «палеоспектрофонии».
Патрик использует современные технологии (в данном случае – не особенно современные, так как спектрограмму изобрели достаточно давно) для того, чтобы преобразовать визуальные объекты в звуковые. Однако человечество не всегда шло этим путем и пыталось, наоборот, «запечатлеть» звук в образах.
Долгое время (до создания фонографа Томасом Эдисоном) людей волновал вопрос: как придумать такой способ фиксации музыки, который помог бы смотрящему на запись воспроизводить мелодию у себя в голове так же легко, как это делают профессиональные музыканты, глядя на партитуру. К сожалению, по мнению доктора Фистера, такая задача недостижима в принципе, поскольку наш
Возможно, решение этой задачи в прошлом и не увенчалось успехом, однако история оставила нам множество свидетельств того, как люди в разные эпохи пытались создать подобные системы записи звука. Самая известная из этих систем легла в основу фоноавтографа – предшественника фонографа, изобретенного французом Эдуаром Мартенвилем. Фоноавтограф представлял собой устройство, в котором звук проходил через конус, заставляя вибрировать мембрану, соединенную с иглой. Игла же, в свою очередь, рисовала волнообразные линии на стеклянном цилиндре, покрытом закопченной бумагой.
С помощью фоноавтографа звук можно было запечатлеть, однако не было никакой возможности его воспроизвести. Это задачу и решил Фистер. В 2008 году он, его коллеги, а также аудиоэксперт Дэвид Джованнони (David Giovannoni) собрались в Национальной Лаборатории Лоуренса в Беркли, чтобы расшифровать одну из наиболее хорошо сохранившихся фоноавтограмм Мартенвиля.
В Лаборатории Лоуренса разрабатывались технологии извлечения звуков с высококачественных фотографий, на которых были запечатлены образы хрупких восковых носителей или сломанных дисков. Воспользовавшись данными технологиями, ученые получили с фоноавтограммы запись песенки «Лунный свет» («Au Clair de la Lune»), сделанную в 1860 году. Считается, что это первая запись, на которой различим человеческий голос.
Однако решения этой задачи Фистеру оказалось недостаточно: впоследствии он не только зафиксировал звук с более чем 50 фоноавтограмм, но и исследовал более ранние попытки «записи звука». В этом ученому, как ни странно, помог сервис Google Books. Используя его, Фистер записывал символы из книг, которые постоянно игнорировались, считаясь историческими причудами.
Самую старую волнообразную линию он нашел в книге 1806 года. Посредством других техник ему удалось расшифровать мелодию 1677 года, которая была записана множеством точек. Еще одна была обнаружена в записях 10 века, где линиями было показано, в какой тональности следует петь. Примеры таких записей можно найти на его сайте Phonozoic [4].
По другому пути идут исследователи из MIT, Microsoft и Adobe: они реконструируют [5] звук по движущейся (а точнее, вибрирующей) картинке. Исследователи разработали алгоритм получения аудиосигнала из вибраций, записанных на видео.
В одном из таких экспериментов им удалось извлечь разборчивую речь с записи пустого пакета из под чипсов. В ряде других экспериментов то же удалось проделать с поверхностью алюминиевой фольги, бокалом с водой и даже с листьями домашнего растения. В 2014 году команда презентовала свои достижения на ежегодной конференции SIGGRAPH.
Видео с выступления одного из исследователей, работавших над проектом, на конференции TED
Дело в том, что когда звук соприкасается с объектом, он заставляет его вибрировать. Движения, созданные этими вибрациями, настолько незначительны и незаметны, что человек не может их увидеть. Однако их может «увидеть» камера: для извлечения аудиосигнала из видео, ученые использовали видеозапись с частотой захвата кадров выше, чем частота аудиосигнала.
Изначально в экспериментах применялись камеры с частотой съемки 2000 и 6000 кадров в секунду, однако исследователи пробовали использовать и другие, более бюджетные камеры. Конечно, из записанного видео с частотой съемки 60 кадров в секунду не удавалось извлечь членораздельную речь, но все же представлялось возможным понять, сколько человек находилось в помещении, их пол и даже особенности их произношения.
Конечно, при мысли об использовании таких разработок, в голову приходят «шпионские истории», однако сами исследователи называют свой проект возможностью открыть новые грани в изображении предметов и изучить их ранее неисследованные свойства. И если сотни лет назад люди пытались придумать способ «записи звука», то теперь такая «запись» становится побочным эффектом, который, в свою очередь, помогает раскрыть новые свойства привычных объектов.
Как уже говорилось, первую фоноавтограмму удалось расшифровать благодаря технологии воспроизведения звука по фотографиям старых пластинок (об этой технологии мы уже писали [6] в одном из наших материалов – в нем же приводятся и ссылки на расшифрованные аудиозаписи). Однако Патрик Фистер подчеркивает, что с этой задачей может справиться любой желающий – если знает, что делать.
Подробный процесс описан в этом [7] материале. От себя заметим, что для решения задачи вам понадобится качественное фото, базовые навыки владения Photoshop (волну, прочерченную на виниле, надо оцифровать, «распрямить» – бороздка на пластинке закручивается по спирали – убрать всевозможные шумы и смещения), а также относительно мощный компьютер с большим объемом оперативной памяти.
Для того, чтобы преобразовать полученное изображение в WAV-файл, Патрик использует довольно экзотическое ПО: это программа ImageToSound. Она бесплатна, но, несмотря на это, ее достаточно сложно найти в сети (Патрик поделился источником [8]).
Программа последовательно конвертирует каждый блок изображения (ширина блока – 1 пиксель) в аудиосэмпл. К сожалению, это ПО не поддерживает даже Windows 7 (автор использует для работы отдельный компьютер с Windows 98). В качестве альтернативы Фистер предлагает использовать программу [9] AEO-Light, но предупреждает, что сам не до конца знаком с тонкостями работы с ней.
Последний этап – регулирование скорости воспроизведения. Тут на помощь приходит простая математика. Для начала нужно узнать скорость воспроизведения на оригинальной пластинке, длину одного оборота оцифрованной волны (после «деспирализации») в пикселях и частоту дискретизации конечного файла.
Если изображение было отредактировано в аудиофайл с частотой дискретизации 44.1 кГц, то это означает, что секунда аудиофайла будет равна 44 100 пикселям изображения. Если, к примеру, скорость песни на виниловой пластинке была равна 50 оборотам в минуту, а после оцифровки и деспирализации один оборот пластинки занял 30 000 пикселей, мы получаем 1 500 000 пикселей в минуту (50х30 000).
Если поделить это количество на 60, мы получим количество пикселей в секунду (1 500 000/60 = 25 000). Делим частоту дискретизации на количество пикселей в секунду (44 100/25 000 = 1.764). Полученное число умножаем на длину аудиофайла (время проигрывания песни) и получаем время, с которым изначально был записан этот файл. Если скорость воспроизведения оригинальной записи неизвестна, Патрик советует подобрать итоговую скорость на слух.
Патрик Фистер предупреждает – это довольно кропотливый труд, который требует времени и терпения, но при этом дает порой удивительные результаты: особенно когда дело касается голосов прошлого, которые, казалось бы, были навсегда утеряны.
P.S. Больше материалов по теме аудиотехники – в нашем блоге "Мир Hi-Fi [10]".
Автор: Аудиомания
Источник [11]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/rabota-so-zvukom/118571
Ссылки в тексте:
[1] Image: http://geektimes.ru/company/audiomania/blog/274616/
[2] удалось: http://www.economist.com/blogs/babbage/2011/07/ancient-audio
[3] мозг: http://www.braintools.ru
[4] Phonozoic: http://www.phonozoic.net/
[5] реконструируют: http://news.mit.edu/2014/algorithm-recovers-speech-from-vibrations-0804
[6] писали: https://geektimes.ru/company/audiomania/blog/249090/
[7] этом: https://griffonagedotcom.wordpress.com/2014/11/27/how-to-play-back-a-picture-of-a-sound-wave/
[8] источником: http://www.softpedia.com/get/Others/Miscellaneous/ImageToSound.shtml
[9] программу: http://imi.cas.sc.edu/mirc-software-overview/
[10] Мир Hi-Fi: http://www.audiomania.ru/mirhifi/
[11] Источник: https://geektimes.ru/post/274616/
Нажмите здесь для печати.