- PVSM.RU - https://www.pvsm.ru -

Загадочные субтитры на CNN

Зрители CNN обратили внимание [1], что в выпуске новостей 12/11/2020 [2] на их официальном YouTube-канале вместо субтитров какая-то каша из обрывков английских слов, сплошным капсом:

Загадочные субтитры на CNN - 1

Как такое могло получиться? (По состоянию на 1/12/2020, субтитры на YouTube так и не исправлены.)

Stenotype

Американские стенографисты уже больше сотни лет как используют специальные устройства [3] с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец, чтобы минимизировать движения кистей:

Загадочные субтитры на CNN - 2

Сто лет назад стенотайп был вариантом печатной машинки, и каждая клавиша оставляла оттиск на бумаге. Каретки не было: после каждого «аккорда» из одной или нескольких одновременно нажатых клавиш, бумага проматывалась на одну строчку вниз. Оттиск каждой литеры приходился всегда на одно и то же место в строке. Клавиши P, R, S, T присутствуют в двух экземплярах каждая — под левой и под правой рукой.

Загадочные субтитры на CNN - 3


Каждый «аккорд», и каждая строчка в распечатке, соответствует одному слогу. Промежутков между словами нет, а сами слова передаются фонетически: на показанной выше распечатке застенографирована фраза «You should be able to read these short words». Поскольку клавиш меньше, чем букв в английском алфавите, и тем более — чем звуков в английской речи, то используется хитроумная система «кодирования», например [n] записывается как PB, [l] — как HR, дифтонг [eɪ] — как AEU, и т.п. При таком кодировании, например, слово gleam записывается как TKPWHRAOEPL — «аккорд» из одиннадцати одновременно нажатых клавиш!

Пример отрывка стенограммы судебного заседания

Загадочные субтитры на CNN - 4 [4]

После заседания стенографист должен был сидеть и перепечатывать свою стенограмму на обычной печатной машинке, потому что прочесть её неподготовленному человеку решительно невозможно. В приведённом примере фраза «absolutely one hundred percent» записана как SHRAOUT HRAOE WOPB HUPBD PERS, что означает [sljuːtliː wɒn hʌnd pɛrs] — пропущенные слоги должны восстанавливаться по контексту, а гласные не вполне соответствуют словарной транскрипции. Существуют разные системы обозначений и сокращений, так что даже самим стенографистам сложно читать записи один другого. Вот короткий отрывок из учебника стенографии [5], исправленного владельцем под другую систему:

Загадочные субтитры на CNN - 5

Считается, что средний темп английской речи — 130 слов в минуту, а стенографист со стенотайпом может печатать до 300 слов в минуту, что позволяет записывать разговор даже тогда, когда собеседники перебивают друг друга. Есть аналогичная система Velotype [6], ориентированная на побуквенную запись вместо фонетической; она позволяет печатать до 200 слов в минуту. Разница вызвана тем, что в английских словах почти всегда букв больше, чем звуков — иногда вдвое, как в словах choose [tʃuːz] или earth [ɜːθ]. Велотайп был создан в 1939, когда расцвели табуляторы и автоматическая обработка данных; мотивацией для побуквенной записи была более простая расшифровка стенограмм, которую можно было бы поручить даже электромеханической машине. Вместе с прочей оргтехникой электрифицировались и сами стенографические машины: вместо механически соединённых клавиш и литер, печатающих на бумаге, с конца прошлого века используется электроника, удобные дисплеи, цифровое хранение и обработка стенограмм.

Загадочные субтитры на CNN - 6

В начале этого века возможности компьютерной обработки естественных языков достигли того уровня, чтобы автоматически расшифровывать стенотайповые фонетические стенограммы и превращать «SHRAOUT HRAOE» в «absolutely». Затем поддержка лиц с ограниченными возможностями достигла того уровня, чтобы телеканалы сопровождали прямой эфир субтитрами в реальном времени для тех, кому читать проще, чем слушать. Это значит, что за эфиром следит стенографист со стенотайпом, он записывает речь диктора и других участников передачи, его компьютер расшифровывает стенограмму, при необходимости — автоматически переводит её на язык целевой аудитории, и передаёт получившийся текст в эфир и на YouTube.

Судя по всему, 12/11/2020 у CNN в этой сложной системе что-то засбоило, и вывод расшифровщика перемешался с кусками нерасшифрованной стенограммы. Даже если они во время передачи и обнаружили сбой, то решили ничего не трогать, чтобы не отломалось что-нибудь более важное. Случай на Fox News в 2013 наделал гораздо больше шума [7]: в тот раз расшифровщик не справился с именем Джохара Царнаева [8], устроившего взрыв на Бостонском марафоне, и подставил вместо него в субтитры имя актрисы Зоуи Дешанель [9].

Автор: Artyom Skrobov

Источник [10]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/359318

Ссылки в тексте:

[1] обратили внимание: https://languagelog.ldc.upenn.edu/nll/?p=49178

[2] выпуске новостей 12/11/2020: https://www.youtube.com/watch?v=4Cg8xTfA6i4

[3] специальные устройства: https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B5%D0%BD%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%B0

[4] Image: http://itre.cis.upenn.edu/~myl/languagelog/archives/001418.html

[5] учебника стенографии: https://www.dropbox.com/s/fa7fch2eocubrde/Philadelphia%20Clinic.pdf

[6] Velotype: https://en.wikipedia.org/wiki/Velotype

[7] гораздо больше шума: https://www.mirror.co.uk/tv/tv-news/zooey-deschanel-named-boston-bomber-1850383

[8] Джохара Царнаева: https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BB%D0%BE_%D0%94%D0%B6%D0%BE%D1%85%D0%B0%D1%80%D0%B0_%D0%A6%D0%B0%D1%80%D0%BD%D0%B0%D0%B5%D0%B2%D0%B0

[9] Зоуи Дешанель: https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%88%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C,_%D0%97%D0%BE%D1%83%D0%B8

[10] Источник: https://habr.com/ru/post/530682/?utm_source=habrahabr&utm_medium=rss&utm_campaign=530682