Рубрика «распознавание речи» - 4

Google AIY: мейкерский набор для создания гаджетов с голосовым управлением - 1

Компания Google запустила инициативу AIY Projects, чтобы совместить AI с DYI, то есть совместить программные приложения ИИ с наборами для сборки гаджетов. В результате, считает Google, мейкеры смогут изготовлять полезные устройства, которые помогут «решать реальные проблемы» в жизни. Эти гаджеты будут по-настоящему взаимодействовать с человеком. Например, распознавать речь, отвечать на вопросы и выполнять голосовые команды.

Первым проектом стал Voice Kit — демонстрационная система распознавания речи с подключением к Google Assistant (или без подключения). Как сказано в описании, в дополнении ко всем обычным функциям Google Assistant, тут вы сможете ещё добавлять в гаджет собственные пары вопросов и ответов. Приборчик выполнен в виде маленького картонного кубика с Rasberry Pi 3 внутри. Сборка набора из 12 деталей займёт примерно 1,5 часа.
Читать полностью »

Новый рекорд в распознавании речи: уровень ошибок алгоритма снижен до 5,5% - 1
IBM 100: Истоки работы над распознаванием речи

Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?

В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.
Читать полностью »

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт - 1
Технические характеристики специализированной микросхемы ASIC для распознавания речи

Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.
Читать полностью »

Простейшее управление компьютером при помощи голоса - 1"
Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.
Читать полностью »

Недавно мне в руки попало два популярных голосовых помощника. В этом обзоре я расскажу о том, что они умеют и чего пока не умеют.

image

Читать полностью »

Полиция хочет допросить Алексу из колонки Amazon Echo по делу об убийстве - 1

Умный динамик Amazon Echo — 24-сантиметровая цилиндрическая колонка с микрофонной решёткой. Прибор устанавливается в квартире, управляется голосом и реагирует на женское имя Алекса (сайт вашей Алексы открывается по личному паролю). Очень полезная вещь: после произнесения своего имени она записывает речь пользователя, распознаёт её (в облаке), хранит записи разговоров (их можно удалить через приложение), может выполнять команды — читать книги, играть музыку, устанавливать будильник. Или просто разговаривать с хозяином. Во втором сезоне хакерского сериала Mr. Robot такая колонка была единственной подругой спецагента киберподразделения ФБР Доминик ДиПьеро, так что вы знаете, о чём речь.

Об уникальных способностях Алексы узнала и американская полиция, которая теперь вымогает у корпорации Amazon запись разговоров в квартире, где произошло убийство.
Читать полностью »

Нейросеть читает по губам 46,8% слов по телевизору, человек — только 12,4% - 1
Кадры четырёх передач, по которым обучалась программа, а также слово "afternoon", произнесённое двумя разными дикторами

Две недели назад рассказывалось о нейросети LipNet, которая показала рекордное качество 93,4% распознавания человеческой речи по губам. Уже тогда предполагалось множество применений для такого рода компьютерных систем: медицинские слуховые аппараты нового поколения с распознаванием речи, системы для беззвучных лекций в публичных местах, биометрическая идентификация, системы скрытой передачи информации для шпионажа, распознавание речи по видеоряду с камер наблюдения и т.д. И вот сейчас специалисты из Оксфордского университета совместно с сотрудником Google DeepMind поведали о собственных разработках в этой области.
Читать полностью »

Нейросеть LipNet читает по губам с точностью 93,4% - 1
Командир Дэйв Боумен и второй пилот Фрэнк Пул, не доверяя компьютеру, решили отключить его от управления кораблём. Для этого они совещаются в звукоизолированной комнате, но HAL 9000 читает их разговор по губам. Кадр из фильма «Космическая одиссея 2001 года»

Чтение по губам играет важную роль в общении. Ещё эксперименты 1976 года показали, что люди «слышат» совершенно другие фонемы, если наложить неправильный звук на движение губ (см. "Hearing lips and seeing voices", Nature 264, 746-748, 23 December 1976, doi: 10.1038/264746a0).

С практической точки зрения чтение по губам — важный и полезный навык. Можно понимать собеседника не выключая музыку в наушниках, читать разговоры всех людей в поле зрения (например, всех пассажиров в зале ожидания), прослушивать людей в бинокль или подзорную трубу. Область применения навыка очень широка. Освоивший его профессионал без труда найдёт высокооплачиваемую работу. Например, в сфере безопасности или конкурентной разведке.
Читать полностью »

Пойми меня, если сможешь - 1
На прошлой неделе мы получили письмо от одного кандидата, не прошедшего собеседование на английском. Оказалось, что наши коллеги стали участниками технического эксперимента, проходившего параллельно с интервью. Приводим письмо с минимальными правками и благодарим автора за интересную идею и смелость в ее реализации.

«Полагаю, я вам не подхожу, так как «завалил» тест английского языка, к сожалению. Да, я не имею хорошей практики разговорного английского, но это мне не мешает читать data sheet’ы и общаться с зарубежной поддержкой по почте. Собственно сейчас не об этом, зная заранее, что я не пройду тест на знание языка, я не мог не воспользоваться шансом применить технический подход к данной проблеме. Хотя у меня не было возможности вживую проверить свой метод заранее, тем более в общении с человеком, хорошо владеющим английским и чувствующим особенности произношения, я решил попробовать.

Должен принести извинения за эксперимент сотруднику, проводившему тест, и за не не очень хорошее качество звука, связанное с техническими особенностями «моего» комплекса.Читать полностью »

imageДоводилось ли вам сталкиваться с системами искусственного интеллекта? Полагаем, ответ большинства хабравчан будет положительным. Ведь ИИ уже перестал быть «чем-то за гранью фантастики». Системы распознавания речи Siri, IBM Watson, ViaVoice, виртуальные игроки Deep Blue, AlphaGo и даже такие ранние системы, как MYCIN, разработанная в 1970-х годах в Стэнфордском университете и предназначенная для диагностирования бактерий, вызывающих тяжелые инфекции, а также для рекомендации необходимого количества антибиотиков — все это вариации на тему ИИ. Но, несмотря на то, что технологии стремительно набирают ход, современные системы все еще весьма «угловаты», и главная проблема, с которой сталкиваются исследователи, — это языковое обучение. Заставить систему говорить не сложно, но объяснить ей «физику» окружающего мира — то, что человек понимает на интуитивном уровне — пока не удавалось никому.

Тема языковой проблемы искусственного интеллекта широко раскрывается в статье Уилла Найта, главного редактора AI MIT Technology Review, которую специалисты PayOnline, системы автоматизации приема онлайн-платежей, старательно перевели для пользователей Хабрахабра. Ниже представляем сам перевод.

Примерно в середине крайне напряженной игры в Го, проходившей в южнокорейском Сеуле, участниками которой были один из лучших игроков всех времен Ли Седоль и созданный Google искусственный интеллект под названием AlphaGo, программа сделала загадочный шаг, продемонстрировавший пугающее преимущество над своим человеческим оппонентом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js