![Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models? - 1 Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models? - 1](https://www.pvsm.ru/images/2023/06/01/realno-li-privlech-rjd-za-narushenie-licenzii-modeli-sinteza-iz-repozitoriya-silero-models.png)
Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar
из репозитория silero-models
… опубликованный под некоммерческой под лицензией CC BY-NC-SA.
Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar
из репозитория silero-models
… опубликованный под некоммерческой под лицензией CC BY-NC-SA.
«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.
Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»
Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.
Если вы когда-нибудь слышали фразу "дьявол в деталях", вы понимаете, что условная Лада Гранта от условного Мерседеса отличается не более, чем на несколько процентов. Фактически обе машины ездят и возят своих пассажиров - это и есть главная их функция. Но внимание к мелочам и продуманный пользовательский опыт (UX) это и есть те самые несколько процентов, которые так разительно влияют на наше восприятие продукта.
Попробуем применить этот угол зрения к умным колонкам и голосовым ассистентам. И попытаемся понять, почему же все они пока ещё Гранты. И чего именно им не хватает до Мерседесов.
В недавнем апдейте прошивки для Яндекс Станции Макс мы добавили поддержку вывода звука по кабелю HDMI при просмотре фильмов. Если у вашего телевизора хорошая акустика (или к нему подключена качественная аудиосистема), теперь можно слушать аудиодорожку через неё. Это обновление мы выпустили только сейчас, потому что оно потребовало нетривиальных технических решений. Например, нужно было сделать эхоподавление для HDMI. Вот об этом и поговорим — сначала обсудим историю технологий и проблемы с подавлением собственного звука устройства, а затем перейдём к нашему решению.
Читать полностью »
Голосовые ассистенты были любимым проектом лично Безоса. Он в них отчаянно верил, тратил любые бюджеты. А компания жгла прилично - в 2018 убыток был $5 млрд, в 2022 уже $10 млрд. Подразделение набрало больше 10 000 человек. Безос выверял каждую рекламную кампанию сам.Но теперь он прекратил следить за проектом. В подразделении - сокращения, уволились даже топ-менеджеры, ветераны.
Умные колонки с голосовым ассистентом были хитом 2018 года. Сейчас в США почти 210 миллионов устройств с голосовыми ассистентами, у Amazon - 71 млн.
Окей, вы поставили их у людей дома, а что с заработком?
В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.
В этот раз мы добавили:
eugeny
);ё
со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.
Попробовать модель как обычно можно в нашем репозитории и в колабе.
Голосовые ассистенты незаметно вошли в нашу жизнь с появлением умной колонки Алисы. Многие известные финтех компании внедряют голосовых помощников в свои продукты, так что теперь при использовании мобильных приложений пользователь вынужден привыкать к мультимодальным интерфейсам. Но несмотря на их возрастающую популярность голосовые помощники требуют серьёзных доработок.
— Слушай, она меня на кухне не слышит.
— Ну да, далековато. Давай дополнительный микрофон протянем.
<покупается 5 метров кабеля>
— О, классно!
— ...
— Теперь в комнате не работает.
Это продолжение статьи Ирина — опенсорс русский голосовой помощник. Offline-ready. Расскажу, что поменялось за два месяца с момента прошлой статьи.
Отлажена работа в режиме клиент-сервер с несколькими микрофонами/машинами
Сделан Телеграм-клиент для удаленного управления
Прикручено несколько новых голосов (TTS)
В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.
Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:
Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).
Попробовать модель как обычно можно в нашем репозитории и в колабе.
За последние два месяца сфера технологий в России претерпела множество изменений. Крупные корпорации, да и в целом бизнес IT выходит из страны так стремительно, что порой кажется, что это невозможно, ведь уходят даже такие столпы, которые инвестировали в нашу страну больше, чем во все остальные вместе взятые. И вот одной из немногих в этом списке стоит корпорация добра -- Google. Сразу отмечу, что статья будет ориентирована на технологии и эту часть, политическую сторону вопроса обсуждать не будем. Все данные и предположения являются точкой зрения автора и направлены на обсуждение картины, которую пока никто описывать не хочет.