Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта

в 7:07, , рубрики: начинающим, перевод с английского, Профессиональная литература, Терминология IT, Учебный процесс в IT

Языковой квест на просторах распознавания речи

Полгода назад я стала техническим писателем в научно-исследовательском департаменте ЦРТ. Тогда я еще не знала, в какое глубокое теоретическое море мне придется погрузиться без спасательного круга в виде хоть какого-то терминологического словаря.

Первый звонок от HR из ЦРТ содержал довольно странный для меня вопрос: «Вас не пугает, что придется переводить статьи с русского на английский и с английского на русский?» Меня это конечно не пугало — что ж страшного в статьях! Я их пишу и перевожу всю жизнь, даже люблю. Поэтому я без каких-либо тревог выполнила все тестовые задания, прошла ряд собеседований и, в конце концов, устроилась на работу в ЦРТ.

Получив на новом месте первое задание — перевести три статьи с английского на русский — я поинтересовалась:

— А кто авторы текстов?
— Ребята из соседнего кабинета, — ответили мне коллеги.
— А на русском они говорят? — спросила я.
— Конечно! На имена посмотри!

Иван, Алексей, Юрий – имена авторов и правда были русскими, поэтому я стала спрашивать у них черновики к статьям на великом и могучем. Планов, глоссариев или иных письменных источников, связанных со статьями, у авторов статей не оказалось, и я просто начала переводить. Меня радовал тот факт, что коллеги отлично знают английский и не нуждаются в русскоязычных заготовках.

Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта - 1"

Но радость длилась недолго. Уже со второго абзаца первого текста началось самое интересное: погружение в терминологическую пучину распознавания речи. Встречая термины, мне пока не знакомые, я конечно же искала их в словарях. Но их не было ни в одном известном мне словаре. Даже Multitran, пожалуй, самый полный онлайн-словарь профессиональных терминов и не только, молчал или выдавал откровенно не то. Google-переводчик в этой ситуации оказался полностью негоден, правда он повеселил меня пару раз, выдав несколько бредовых фраз вроде “морковных моделей” (Markov models) или “горлышка бутылки” (bottleneck).

Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта - 2

Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта - 3

Накопив пару десятков примеров такой непереводимой игры слов, я пошла к одному из авторов за разъяснениями. Увидев в моих глазах вопрос «Ребята, вы вообще о чём?», коллега стал мне помогать формулировать корректные переводы понятий. А еще он объяснил, что научные сотрудники ЦРТ не пишут научных статей на русском – это просто никому не нужно. Журналы, в которых имеет смысл публиковаться, сплошь англоязычные, да и читатели этих статей английским владеют достаточно хорошо, чтобы обмениваться знаниями и двигать науку вперед. Мне же перевод поручили для того, чтобы отчитаться по проекту перед заказчиком и сохранить в базе знаний ЦРТ.

Ситуация накалялась. Привлечение одного из светлых умов ЦРТ не положило конец языковому квесту. Во-первых, непереведенных терминов было слишком много, во-вторых, перевести словосочетание порой было возможно только текстом, размером со словарную статью.

Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта - 4

Тогда в ход пошла тяжелая артиллерия – кандидатская диссертация коллеги, в которой ему также пришлось переводить термины распознавания речи на русский язык, да еще и так, чтобы собравшиеся на защите поняли, о чем идет речь. Стало проще, работа закипела, и вскоре все три статьи были переведены на русский.

За несколько месяцев я сделала для себя глоссарий из почти 400 терминов, который помогает мне переводить на русский и на английский любые тексты, созданные научными сотрудниками ЦРТ. Меня уже не пугают эмбеддинги, MFCC, MLP, bottleneck- признаки и т.п.

Книжный квест на просторах России

Задача (и даже не одна) по переводу статей была успешно решена, но осадок от языкового квеста остался. И дело здесь не в том, что мне поначалу было трудно. Просто в России полностью отсутствуют терминологические словари для сферы распознавания речи и искусственного интеллекта вообще. И такая пустота – огромное препятствие для тех, кто начинает свой путь в информационных технологиях. И неважно, что английский — международный язык науки. Из-за отсутствия элементарной опоры каждый, кто находится на старте IT-карьеры, чувствует неопределенность и тратит немало времени, чтобы научиться говорить с коллегами об искусственном интеллекте и читать о нем.

А ведь искусственный интеллект для науки не новость. По нему и монографии пишут, и диссертации защищают. И каждый ученый самостоятельно составляет глоссарий к своей работе, а иногда обходится и вовсе без него.

А что филологи? Что делают лексикографы и прочие гуманитарии, дабы помочь разобраться в хитросплетениях IT-терминов? Я много лет пользуюсь двуязычными бумажными и онлайн-словарями, в том числе такими, которые корректируют пользователи. Почти десять лет подряд меня всё устраивало (я работала в системной интеграции). А потом я пришла в ЦРТ и поняла, что Abbyy lingvo убивает всякую надежду найти хоть сколько-нибудь адекватный перевод IT-термина, а Multitran радует слишком редко. Этот ресурс демонстрирует весьма скромную базу терминов, связанных с искусственным интеллектом. Их в Мультитране собрано ровно 3400. Примерно такой же объем демонстрирует “океанология” (3267 терминов) и “зоология” (3625 терминов) — области хорошо изученные и давно обеспеченные литературой, в том числе терминологическими словарями. Для сравнения, прикладные IT-тематики на Мультитране проработаны лучше: “робототехника” содержит 9802 термина, “микроэлектроника” — почти 12000, “электроника” — 47640.

Филологи-русисты без дела не сидят, они исследуют “семантическое поле информационных технологий”. Вот только поле относится скорее к рубежу веков, ведь до сих пор в статьях обсуждаются расхожие и уже обрусевшие словечки вроде “софта”, “юзера” и “кликабельности”.

Что касается книжной индустрии. Она остается в стороне от озвученной проблемы. Доказательство тому — результаты поиска словарей по искусственному интеллекту.

Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта - 5

Озон (активный продавец как новых книг, так и букинистики) показывает, что в 1992 году был издан: “Толковый словарь по искусственному интеллекту”, авторы-составители: А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. В нем были собраны переводы 550 терминов с 5 европейских языков на русский. И всё. Больше ни одного словаря среди 2000 изданий в разделе “Искусственный интеллект” этого магазина. В остальных книжных всё ещё печальнее, там нет вообще ничего.

А вот результаты поиска в электронных каталогах трех крупнейших научных библиотек страны, которые получают обязательный экземпляр книг и покупают издания по всем отраслям знания.

 

Библиотека

Количество документов по запросу
“Искусственный интеллект”

(из них словарей)

Всего в фонде

Из них словарей

Государственная публичная
научно-техническая библиотека России

1136

Нашелся только 1 по смежной теме:
Словарь языка интернета.ru [Текст] / М. А. Кронгауз [и др.]; под ред. М. А.
Кронгауза. — Москва: Слов. XXI века, 2018. — 288 с.

Российская национальная библиотека

890

3 словаря:

  1. Винокурова
    Т. Н. Англо-русский словарь терминов искусственного интеллекта: [около
    2729 терминологических единиц] / Т.Н. Винокурова; Федер. агентство по
    образованию ГОУ ВПО. «Ом. гос. техн. ун-т». Ом. терминол.
    центр. — Омск: Полиграфический центр КАН, 2012. — 403 с.
  2. Панкин
    А. В. Немецко-русский словарь терминов и понятий высоких технологий =
    Deutsch-russisches wörterbuch der hightech-begriffe: [эфирное,
    кабельное и спутниковое телевидение, видео- и аудиотехника, нанотехнологии,
    электроника и электронная техника, телекоммуникации и связь,
    компьютерная техника, компьютерные сети и Интернет, программирование и
    информатика, автоматическое регулирование и управление, робототехника и
    искусственный интеллект, цифровая фотография и цифровой кинематограф и
    др.]: 35000 терминов / А. В. Панкин. — Москва: Книжный дом
    «ЛИБРОКОМ» URSS, 2009. — 745, [1] с.
  3. Толковый
    словарь по искусственному интеллекту / автор-составитель А.Н. Аверкин и
    др. — Москва: Радио и связь, 1992. — 254, [1] с.; 20 см. — Библиогр.:
    с. 254 (этот же словарь на Озоне нашелся)

Российская государственная библиотека

1524

4 Словаря: те же, что в РНБ (см.
предыдущую строку) + 1 на болгарском языке:

Системи с изкуствен интелект: Терминол.
речник /Георги С. Тодоров

В общем, картина со словарями печальная. Среди трех найденных словарей по искусственному интеллекту первый — немецко-русский, второй издан четверть века назад (он, кстати выложен в сети), третий — интересен, на первый взгляд, но очень редок, его невозможно купить, можно только в научной библиотеке почитать, и то не в каждой.

Буду искать словари дальше — среди источников на английском языке.

Автор: Екатерина Крылова

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js