Рубрика «переводчики»

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.
Читать полностью »

С 1 по 30 апреля в Москве, Санкт-Петербурге и Екатеринбурге пройдёт четвёртая Академия Гипербатона. Это образовательный курс Яндекса для технических писателей, редакторов, а в этом году — ещё и для переводчиков. Зарегистрироваться на курс можно до понедельника следующей недели (9 марта) включительно. Для регистрации необходимо рассказать о себе и выполнить небольшое тестовое задание. Занятия будут проходить в офисах Яндекса по вечерам будних дней, 2–3 раза в неделю. Ещё несколько часов в неделю займут домашние задания.
Читать полностью »

image

Компания DeepL сообщила о том, что она запускает новую систему перевода при помощи искусственного интеллекта, которая дает гораздо более качественный результат. Ее можно бесплатно протестировать.

DeepL Переводчик вышел в 2017 году. Как отметили в компании, сейчас сервис используют более полумиллиарда человек. Версия DeepL Translator для Windows и Mac вышла в 2019 году. Сервис подписки DeepL Pro доступен для частных лиц, команд и разработчиков, а тарифные планы начинаются с €5,99.Читать полностью »

Пользователи Lokalise могут выбирать, локализовать им свой продукт с привлечением наёмных переводчиков площадки, с собственной командой или исключительно своими силами. Именно для упрощения процедуры локализации тех проектов, где профессиональные переводчики не нужны и достаточно собственных знаний языка, мы и предоставляем нашим пользователям возможность использовать встроенные в Lokalise популярные системы машинного перевода от Google, Yandex, Microsoft и SDL. О том, как переводят эти системы, мы сегодня и поговорим на конкретных примерах.

«Чемодан из крокодиловой кожи» или «мешок с аллигатором»: сравнение подключенных к Lokalise онлайн-переводчиков - 1

Google Machine Translate/Google Neural Translate

Около полугода назад компания Google заявила о подключении очередного набора языков к нейронной сети своего сервиса Google Translate, в том числе и русского. Событие это стало знаковым для всего русскоязычного интернет-пространства: ежедневно тысячи человек пользуются встроенным в Chrome переводчиком Google или идут на сайт Google Translate за переводом иностранного текста на родной язык.
Читать полностью »

9 советов по локализации аудио - 1
Captain C-3PO by Jeff Nickel
Если вы имели дело с записью аудио — будь то персонажная озвучка для игры или дикторская начитка для видеоролика, — то наверняка заметили, что дело это недешевое. Важно сделать все правильно с первого раза, чтобы сократить расходы. То же самое и с локализацией аудио: каждая ошибка умножается на количество языков. В этой статье мы поделимся советами о том, как взаимодействовать со студиями звукозаписи и сервисами по локализации, как оптимизировать и ускорить процесс, уменьшить риски, а заодно и расходы на локализацию звука. И неважно, будете вы заказывать эти услуги у нас в Alconost или в другой компании — знание всех подводных камней вам точно пригодится.
Читать полностью »

Онлайн фриланс-сервис для специалистов языковой сферы приглашает лингвистов принять участие в конкурсе и дает возможность выиграть лицензионную профессиональную программу – ассистент для переводчика.

Конкурс для переводчиков от международной лингвистической фриланс-платформы Polyglot - 1
Читать полностью »

Google активно работает над созданием голосового мгновенного переводчика

Похоже на то, что через некоторое время (возможно, пару лет) мы получим мобильный переводчик, позволяющий переводить обычную речь с одного языка на другой в режиме реального времени. На днях вице-президент Android-подразделения Google Хьюго Барра раскрыл некоторые детали работы.

Читать полностью »

Один год проекту «What If?». О создании и работе с сообществом переводчиков энтузиастов

Около года назад, 26 июня, Рэндалл Монро, автор комиксов xkcd начал проект «What If?». Суть проекта в том, что Рэндалл с физической точки зрения отвечал на «глупые» вопросы, которые часто рассматривались с неожиданных точек зрения. Конечно, Рэндалл не упускал возможности устроить катастрофу планетарного масштаба во время ответа.

Но, статья не про это. Я бы хотел рассказать про проект «Что если?», где мы переводим статьи из «What If?». Я недаром опубликовал статью в хаб «Управление проектами», поскольку статья будет про то, как мы им управляем и что из этого получилось менее чем за год (я начал его делать в начале сентября 2012 года).

Читать полностью »

Теперь, для вывода текста в речь на платформе Asterisk PBX с открытым источником, можно будет использовать переводчик Microsoft.

image

Представленный скрипт позволит использовать Microsoft Translator для воспроизведения текста пользователя в речь. Он включает в себя локальное кэширование на голосовые данные, содержит в своей базе множество языков, а также поддерживает 8 кГц или 16 кГц ставки. Это обеспечит наилучшее качество звучания, наряду с использованием широкополосных кодеков.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js