Рубрика «Google Voice Search»

Привет! Пока любители фруктовых девайсов меряются лопатами и отсутсвующими/запаздывающими фичами, а Siri до сих пор не умеет говорить по-русски, мы можем насладиться прогрессом другой ОС и её сервисов. Под катом можно узнать, что отличает внешне Android L от 4.4.4, каких ресурсов он требует для работы, чего нам ждать от девайсов, которые получат апдейт. Ну и ещё немного расскажу о голосовом поиске, который не так давно получил несколько весомых обновлений, но они прошли как-то мимо Хабра. Все трюки в этом посте выполенны профессиональными смартфонами, повторяйте дома на свой страх и риск.

Android L, Nexus 5, Google Search и все все все

Читать полностью »

Вместо введения

Решил немного дополнить отчет, который составлял еще будучи студентом. Прошло время и, как говорится, прогресс не стоит на месте. Технологии распознавания речи динамически развиваются. Что-то появляется, что-то исчезает. Вашему вниманию представляю самые известные речевые движки, которые может использовать разработчик в своем продукте на основе лицензионного соглашения. Буду рад замечаниям и дополнениям.

Содержание:

1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции

Цели:

Определить наиболее оптимальную аудио-систему распознавания речи (речевой движок) на базе закрытого исходного кода, то есть лицензии которой не подходит под определение открытого ПО.

Задачи:

Определить аудио-системы распознавания речи, которые попадают под понятие закрытого исходного кода. Рассмотреть наиболее известные варианта речевых систем преобразования голоса в текст, для перспектив интеграции видео-модуля в наиболее оптимальную голосовую библиотеку, которая имеет открытое API для совершения данной операции. Сделать выводы целесообразности использования аудио-систем распознавания речи на базе закрытого исходного кода под наши цели и задачи.
image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js