Как работает RealSpeaker

в 17:48, , рубрики: голосовое управление, навигация, распознавание речи, Софт, метки: , ,

Здравствуйте, дорогие пользователи хабрахабр!

Наконец-то наступил тот день, когда я решил написать первый пост для Вас.
Речь пойдет о том, как возникла идея создания проекта, на какой стадии развития мы находимся сегодня и какие планы стоят перед нами в самое ближайшее будущее. Смотри видео:

Идея проекта возникла еще в далеком 2009 году, когда я был еще студентом марийского государственного университета. В свое время я мечтал поступить в главный альма матер страны: московский государственный университет имени Михаила Васильевича Ломоносова. Кто знает, наверняка помнит, что первое время там не принимался единый государственный экзамен и необходимо было сдавать все экзамены лично, используя свои знания и навыки. Для этих целей активно готовился более года. Я разработал программу на год, где разделил методичку абитуриента на временные периоды в течение года по дисциплинам. И по ним активно готовился каждый день. Весь мой день был расписан по минутам. Вставал я в 6 часов 30 минут, ложился в 23 00. Благодаря четкой организованности, мне удалось значительно повысить свой внутренний мир.


Однако этого оказалось недостаточно для поступления. Во время подготовки я обратил внимание на учебники по фонетике, где большое внимание уделяется изучению иностранного языка на основе правильной артикуляции. Артикуляция — это раздел лингвистики, который отвечает за произношения. Я задумался по этой теме и вспомнил про глухих людей, которые развивают в себе навыки чтения по губам. Идея мне показалось оригинальной – я решил заниматься созданием аудио визуальной системы распознавания речи, которая на первом этапе будет позволять человеку преобразовывать речевые данных в текст, а потом воспроизводить их для общения с иностранцами.

Если проследить про это сегодня, то можно услышать про Skype. Microsoft объявила о том, что создает специальный сервис, который позволит в реальном времени общаться с иностранцами за счет синхронизации информация на разных языках. Вот такая была у меня идея для 2009 года.
Затем я занимался этим неформально, проводил исследования по данной тематике, писал научные статьи, выступал на конференциях: сначала на региональных, потом на столичных. Ездил по разному роду слету молодежи, был даже два раза на Селигере.

Таким образом мне удалось впервые получить денежную сумму 400 тысяч рублей от фонда Бортника. Это сумма расписывалась на 2 года, и я получал денежные средства в размере 15 тысяч рублей в месяц, что для студентов было очень и очень хорошо.

Так же в это время я смог познакомиться с людьми, из этой области, которые мыслили и соображали лучше, чем я. Постепенно стали прорабатывать эту тему и создавать свои собственные решения. Но это было больше научная работа – без всякого намека на бизнес.

В 2011 году закончив с красным дипломом университет, я решила не идти в аспирантуру, а попробовать заниматься этим направлением. Мне хотелось создать компанию. Более того я мечтал об этом.
В конце года переехал в Казань вместе с двумя ребятами из города Йошкар-Ола. Мы стали заниматься подобной тематикой более профессионально. Конечно же, наших навыков и знаний было недостаточно. Но очень сильно компании помогал казанский айти парк, затем мы стали резидентами Сколково, поскольку у проекта были некоторые научные основы.

Однако первая версия технологии появилась только в тринадцатом году. Как это не удивительно, 1 решение было абсолютно не удачным. Постольку поскольку в своей работе основные акценты мы делали на видео обработку, в то время как аудио уделялось внимание лишь в конце.
Таким образом в первом решении человек очень сильно зависел от внешних условий: расстояние от камеры до человека, качество картинки, насколько активно человек движется в кадре. Мы позабыли о самом главном принципе систем распознавания речи – программа должна давать эффект свободы.

Затем мы пересмотрели нашу концепцию и примерно в конце октября запустили новую версию продукта. Постепенно именно с этого времени начался рост, который во многом органический. Решение постепенно распространяется, у нас появляются новые пользователи, база данных продукта растет, растет конечно и прибыль, но пока еще никаких серьезных значений получить не удалось, а как бы хотелось.

Таким образом подводя итог: я в этой теме уже достаточно давно, почти пять лет. Компания существует два года. За время работы мы пережили множество этапов. Были периоды, когда нас кстати было более десяти человек; было, когда фактически проектом занималось два человека. Сейчас, основные цели и задачи, продвинуть наши решения на европейские и американские рынки. Поскольку РеалСпикер легко можно адаптировать под любой язык – нужно лишь, сделать локализацию сайта и локализацию приложения.

Предполагается так же доработать технологию, которая находится в сыром виде. Основная идея – это сделать так, чтобы система идентификации могла верифицировать человека из общего шума. Чтобы программа могла подавлять посторонние шумы. К решению этой задачи мы стремимся. И она будет рано или поздно решена.

Спасибо огромное за ваше внимание, отличной недели!
Если будут вопросы, пишите. Буду рад рассказать более подробно.
Всего самого замечательного!
С уважением,
Виктор

«Этот текст был набран с помощью программы RealSpeaker – www.realspeaker.net»

Автор: ViktorOsetrov

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js