- PVSM.RU - https://www.pvsm.ru -

«Я слышу голоса» или есть ли у Siri лицо

Голоса мы слышим постоянно: в метро, в навигаторах и в наших смартфонах. И если в том, что голоса в метро принадлежат настоящим людям, сомневаться не приходится, то вот ответ на вопрос, кто озвучивает виртуальных помощников и роботов, скоро может перестать быть таким однозначным.

С другой стороны, актерам озвучания пока можно не бояться потерять работу, ведь даже для озвучки робота BB-8 из «Звездных войн» привлекался [1] Билл Хейдер (Bill Hader), ведущий известного американского шоу Saturday Night Live на NBC. Обо всем подробнее в сегодняшнем материале.

«Я слышу голоса» или есть ли у Siri лицо - 1 [2]Фото Vancouver Film School [3] CC-BY [4]

Siri

Почти все слышали, как звучит американская версия Siri, но мало кто задумывается, что этот голос принадлежит реальному человеку, профессиональной актрисе [5]озвучания, Сьюзан Беннетт (Susan Bennett). Правда, сама актриса во время работы над записью даже не представляла, что ее голос будет звучать из каждого кармана. Дело в том, что запись производила компания, занимающаяся преобразованием текста в речь, которую позже выкупила Apple.

В 2005 году Сьюзан проводила в звукозаписывающей студии 20 часов в неделю, но это были очень напряженные 20 часов: приходилось часто делать перерывы, пить много воды и начитывать абсолютную чушь, состоящую из набора всевозможных несвязанных слов. Для того, чтобы звуки можно было потом соединять [6]в нужные слова, которые звучали бы естественно, необходимо проговорить все возможные сочетания звуков в языке. А доработка озвучки в 2011 году заняла уже 4 месяца, правда и работала «голос Siri» всего по два часа в день.
Подробнее о Siri и о том, как проходила запись, рассказывает сама Сьюзан Беннетт в выступлении на TED Talks:

Актриса переживает о незащищенности прав актеров озвучания — их голос может использоваться в каких угодно целях, и они не получают никаких дополнительных денег даже за такое коммерческое использование.

Британскую мужскую версию Siri под именем Daniel озвучивал [7]теле- и радиоведущий Джон Бриггс (Jon Briggs), который тоже не знал, что его голос будет использован для Siri, пока не увидел рекламу по телевизору. Он также записывал голос для компании Scansoft в 2005. Ее позже выкупила Nuance, которая совместно с Apple и занимались разработкой Siri. Во время работы Джон записал 5 тысяч предложений за три недели, но в отличие от Сьюзан, его вполне устраивает полученный за озвучку гонорар.

Женщины против мужчин

А вот актриса, которая записывает голос для Google Now, предпочитает не показывать своего лица. Зато можно посмотреть, как происходит сам процесс записи:

Актриса отмечает, что этот процесс достаточно сложный, так как необходимо говорить в одном темпе и с одним тембром. Менять голос на протяжении всей записи нельзя, при этом следует соблюдать правильные интонации. Но в Google за этим следит команда, состоящая из лингвиста и специалиста по сценической речи, что позволяет в конечном счете получить более естественную [8]речь.

В случае с Cortana [9]от компании Microsoft ситуация совсем другая: сам образ и имя виртуальной помощницы было заимствован из серии игр Halo. Поэтому и для ее озвучки была приглашена та же актриса, которая работала [10]над голосом одноименной героини в видеоиграх. Джен Тэйлор (Jen Taylor) точно знала, для чего будут использоваться записи, да и вообще никак не скрывалась и даже играла роль Кортаны в мини-сериале «Halo 4: Идущий к рассвету» в 2012 году.

Большинство виртуальных помощниц говорят женским голосом или названы женскими именами. Некоторые даже видят в этом проявление [11]цифрового сексизма. Однако результаты исследований показывают, что женский голос чаще выбирают сами пользователи. Люди считают, что он звучит дружелюбнее, а мужской воспринимается как более агрессивный.

Это, конечно, не всегда так, большую роль играет интонация и тембр. Разница между восприятием двух разных мужских голосов можно увидеть на примере [12]домашнего виртуального помощника Марка Цукерберга. Помощника зовут Jarvis, и с голосом Моргана Фримана он воспринимается как очень учтивая и воспитанная система:

Мы едем, едем, едем

Еще большее количество людей сталкивается с синтезированным голосом при использовании навигаторов. Мужской голос Яндекс.Навигатора был записан [13]профессиональным диктором, а вот для записи женской версии привлекалась сотрудница компании. Запись заняла всего 3 часа, а текст уместился на 4-х листах, что, в сравнении с озвучкой виртуальных помощников, совсем немного.

Для построения предложений, которые произносит навигатор, используются отдельные слова, но на записи приходилось произносить целые фразы, чтобы текст звучал более естественно. Для озвучки навигатора к олимпиаде был приглашен [14]Василий Уткин, который провел в студии несколько часов и наговорил 160 фраз. В навигаторе используются только 120, но создатели обещали менять некоторые из них, чтобы разнообразить поездки. А некоторые фразы Василий даже придумал сам.

Свои особенности [15]есть и в озвучке объявлений в метро. Например, первые записи с современными голосами метро производились более 20 лет назад, а это значит, что писались они на катушки с пленкой. Поэтому у актеров не было права на ошибку. Точнее, если ошибка была допущена, приходилось переписывать все сначала. Да и сейчас, если к какой-то записи необходимо добавить новую информацию, приходится перезаписывать озвучку всей ветки целиком.

И лицо есть не только у Siri, но и у московского метрополитен. На самом деле их даже три [16]: актёры, радио- и телеведущие Юлия Романова-Кутьина, Сергей Куликовских и Алексей Россошанский. К разным праздникам к озвучке объявлений привлекаются знаменитости или дети. А вот на то, что именно говорят голоса в метро, могут повлиять обычные люди. Например, после того как активисты выразили недовольство [17]фразой «Просьба освободить вагоны», ее заменили на «Просьба выйти из вагона».

Но в скором будущем синтезирование речи будет происходить совсем иначе благодаря разработке [18]Google. WaveNet синтезирует речь не из фрагментов записей человеческого голоса: программа воспроизводит звуковые волны, анализируя их с помощью сверточных нейронных сетей (послушать можно тут [19]).

Кроме голоса она может даже имитировать музыку. Пока такая технология еще достаточно дорогая, так как для обучения сетей и обработки записей требуется достаточно много ресурсов и времени, но уже сейчас 50% людей в контрольной группе приняли речь WaveNet за человеческую. А в будущем можно будет сымитировать голос и интонации любого человека, правда, для обучения все равно пока нужны записи голоса настоящих людей.

P.S. Что еще можно почитать в нашем блоге:

Автор: Аудиомания

Источник [26]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/iskusstvenny-j-intellekt/249207

Ссылки в тексте:

[1] привлекался: http://time.com/4151880/bb-8-voice-star-wars

[2] Image: https://geektimes.ru/company/audiomania/blog/286820/

[3] Vancouver Film School: https://www.flickr.com/photos/vancouverfilmschool/4462344821/in/photostream/

[4] CC-BY: https://creativecommons.org/licenses/by/2.0/

[5] актрисе : http://www.cracked.com/personal-experiences-2108-i-am-siris-voice-4-bizarre-realities.html

[6] соединять : https://en.wikipedia.org/wiki/Concatenation#Audio.2Ftelephony

[7] озвучивал : http://www.telegraph.co.uk/technology/apple/8879705/The-voice-behind-Siri-breaks-his-silence.html

[8] естественную : http://www.theverge.com/2016/3/30/11333524/google-now-voice-improved-smoother-sound

[9] Cortana : https://en.wikipedia.org/wiki/Cortana_(software)

[10] работала : https://www.neowin.net/news/halo-actress-jen-taylor-to-voice-windows-phone039s-cortana

[11] проявление : http://www.cbc.ca/news/opinion/female-virtual-assistants-1.3937759

[12] примере : http://www.scmp.com/tech/leaders-founders/article/2056310/video-mark-zuckerbergs-personal-virtual-assistant-which-voiced

[13] записан : https://yandex.ru/blog/company/85878

[14] приглашен : https://yandex.ru/blog/company/vy-priekhali-igrayte-v-futbol

[15] особенности : http://bg.ru/city/ostorozhno_dveri_zakryvajutsja-17440/?chapter=3

[16] три: http://www.taday.ru/text/194443.html

[17] недовольство : http://bg.ru/city/ostorozhno_dveri_zakryvajutsja-17440/?chapter=2

[18] разработке : https://www.extremetech.com/extreme/235428-robots-receive-a-scary-new-voice-courtesy-of-googles-deepmind

[19] тут: https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-generate-eerily-convincing-speech-and-music/

[20] «Не звуком единым»: Как Dolby Vision делает мир ярче: http://www.audiomania.ru/content/art-4867.html

[21] Кейс SoundCloud: через тернии к новым раундам финансирования: http://www.audiomania.ru/content/art-4868.html

[22] Как звуки влияют на наш сон и продуктивность: https://geektimes.ru/company/audiomania/blog/286352/

[23] Как это работает: Аудиоконтент в соцсетях: https://geektimes.ru/company/audiomania/blog/285096/

[24] Квинтовый круг: Говорим о музыке простыми словами: http://www.audiomania.ru/content/art-4864.html

[25] До мажор как стандарт: Почему не ля мажор: http://www.audiomania.ru/content/art-4865.html

[26] Источник: https://geektimes.ru/post/286820/