Перспективы развития систем распознавания речи (выдержка из исследования)

в 14:35, , рубрики: исследование рынка, Исследования и прогнозы в IT, прогноз развития, Работа со звуком, распознавание речи

Вместо введения


Покупать исследования по рынку распознавания речи достаточно дорого (от 2-х до 10 тысяч долларов и более). Не каждый себе может позволить, особенно среди разработчиков. Полностью переводить на правах переводчика тоже нельзя, так как есть ограничения на условиях лицензионного соглашения. Но поделиться информацией тоже бы очень хотелось перед заинтересованной публикой — так как фанатов речевых технологий становится все больше и больше. Поэтому я решил опубликовать часть выжимки международного исследования Technavio, которое в свое время мы приобретали — конечно же, в своей вольной гоблинской интерпретации. Надеюсь информация будет полезной. Правда пришлось отказаться от многих цифр, кроме тех, которые уже есть в сети. Наше исследование идет без графиков, таблиц, и к сожалению, SWOT анализов. Тот кому это действительно интересно — всегда имеет возможность приобрести самое свежее исследование здесь.

В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно — тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить — пожалуй начнем описывать самые интересные моменты, куда движется все таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 — 2016 гг.) — как уверяют исследователи.
image

Введение

Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. Обе эти технологии используются параллельно: с одной стороны для идентификации голоса конкретного пользователя с другой стороны для идентификация голосовых команд посредством распознавания речи. Распознавание голоса используется в биометрических целях безопасности, чтобы определить голос конкретного человека. Эта технология стала очень популярной в мобильном банкинге, который требует идентификации подлинности пользователей, а также для других голосовых команд, чтобы помочь им совершать сделки.

Мировой рынок распознавания речи является одним из самых быстрорастущих рынков в голосовой индустрии. Большая часть роста на рынке приходит из Америки, а затем из Европы, Ближнего Востока и Африки (EMEA) и Азиатско-Тихоокеанского региона (АТР) областях. Большая часть роста на рынке происходит от здравоохранение, финансовых услуг, и государственного сектора. Однако в других сегментах, таких как телекоммуникации и транспорт ожидается значительное увеличение роста в ближайшие несколько лет. Прогноз рынка, дальнейшее увеличение со среднегодовым темпом роста в 22,07 процента в период 2012-2016 гг. (показатели динамики роста текущих компаний).

Рост мирового рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности подобных систем и частыми нарушениями безопасности, безопасность на основе голосового распознавания продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос на голосовую биометрию, обусловлен тем, что голос уникален для любого человека, следовательно, он может использоваться как решающий фактор в установлении чей-то личности, следовательно, ожидается, что такая тенденция будет и далее главенствовать на рынке в последующие годы. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

Несмотря на общий рост драйверов рынка, мировом рынок распознавания голоса также сталкивается с некоторыми серьезными замедлителями. Трудность в подавлении окружающего шума является одной из основных задач, стоящих перед рынком. Хотя рынок был свидетелем нескольких технологических достижений, все же неспособность подавлять окружающий шум остается препятствием на пути к широкому принятию приложений на основе распознавания голоса. Еще одной проблемой для этого рынка является высокая стоимость приложений на основе распознавания голоса.

Эффект от этих задач и проблем, которые стоят перед рынком, сводит на нет в определенной степени наличие различных новых тенденций, которые появляются на рынке. Одной из таких тенденций является увеличение спроса для распознавания речи в мобильных устройствах. Осознавая огромный потенциал мобильных устройств, производители на мировом рынке распознавания голоса развивают инновационные приложения, специфичные для работы в мобильных устройствах. Это один из будущих движущих факторов рынка. Растущий спрос на голосовую аутентификацию мобильного банкинга является еще одним позитивной тенденцией на рынке. Таким образом, есть несколько положительных тенденций, связанных с голосовой проверкой подлинности с помощью мобильных устройств, которые, как ожидается, способствуют дальнейшему улучшению темпов роста мирового рынка распознавания голоса.

Драйверы роста рынка

Рост мирового рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, безопасность продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

Некоторые из основных факторов мирового рынка распознавания речи:
• Увеличение спроса на услуги голосовой биометрии
• более широкое использование идентификации диктора для судебно-медицинских целей
• Спрос на распознавания речи в военных целях
• Высокий спрос для распознавания голоса в сфере здравоохранения

Увеличение спроса на услуги голосовой биометрии

Изначально, слово «биометрия» встречалось только в медицинской теории. Тем не менее, стали возрастать потребности в безопасности с использованием биометрических технологий среди предприятий и государственных учреждений. Использование биометрических технологий – один из ключевых факторов на мировом рынке распознавания речи. Распознавание голоса используется проверки подлинности человека, так как голос каждого человека индивидуален. Это обеспечит высокий уровень точности и безопасности. Распознавание голоса имеет большое значение в финансовых институтах, таких как банк, а так же на предприятиях в сфере здравоохранения. В настоящее время сегмент распознавания речи составляет 3,5% от доли технологий биометрии на мировом рынке, но это доля имеет постоянный рост. Также низкая стоимость биометрических устройств увеличивает спрос со стороны малого и среднего бизнеса.

Более широкое использование идентификации диктора для судебно-медицинских целей

Использование технологии идентификации диктора для судебно-медицинских целей является одной из главных движущих сил на мировом рынке распознавания голоса. Происходит сложный процесс определения, соответствует ли голос лица, подозреваемого в совершении преступления, голосу из судебно-медицинских образцов. Данная технология позволяет правоохранительным органам выявлять преступников по одной из самых уникальных характеристик человека, его голосу, тем самым предлагая относительно высокий уровень точности. Судебно-медицинские эксперты проводят анализ соответствия голоса подозреваемого образцам до тех пор, пока не будет найден преступник. В последнее время эта технология используется, чтобы помочь решать некоторые уголовные дела.

Спрос на распознавание речи в военных целях

Военные ведомства в большинстве стран используют крайне ограниченные зоны для того, чтобы предотвратить проникновение злоумышленников. Для обеспечения секретности и безопасности в этой зоне, военные используют системы распознавания голоса. Эти системы помогают военным учреждениям выявлять наличие несанкционированных проникновений в защищенную зону. Система содержит базу данных голосов военнослужащих и государственных чиновников, которые имеют допуск к защищенной территории. Эти люди идентифицируются системой распознавания голоса, тем самым предотвращается допуск людей, чьих голосов нет в базе данных системы. В дополнение можно сказать, что ВВС США используют голосовые команды для управления самолетом. Кроме того, военные ведомства используют распознавание речи и систему Voice-to-text для коммуникации с гражданами в других странах. Например, американские военные активно используют системы распознавания речи в их операциях в Ираке и Афганистане. Таким образом, существует высокий спрос на распознавание речи и голоса для военных целей.

Высокий спрос для распознавания голоса в сфере здравоохранения

Биометрические технологии, такие как сосудистое распознавание, распознавание голоса и сканирование сетчатки глаза широко внедряются в сферу здравоохранения. Распознавание голоса, как ожидается, станет одним из основных режимов идентификации в медицинских учреждениях. Многие компании здравоохранения в США, обращаясь к стандартам Health Insurance Portability and Accountability Act (HIPAA), также применяют биометрические технологии, такие как распознавание голоса, распознавание отпечатков пальцев для более безопасной и эффективной регистрации пациента, накопления информации пациента, защиты медицинских записей пациента. Также учреждения клинических испытаний внедряют распознавания голоса для выявления лиц, набранных для клинических испытаний. Таким образом, голосовая биометрия является одним из основных режимов для идентификации клиента в сфере здравоохранения в Азиатско-Тихоокеанском регионе.

Требования рынка

image
Влияние основных четырёх трендов и проблем на мировой рынок распознавания показано на рисунке

Ключ
Влияние проблем и трендов оценивается на основе интенсивности и длительности их воздействия на текущий рынок. Классификация величины воздействия:
• Низкий – незначительное или нулевое влияние на рынок
• Средний – средний уровень влияния на рынок
• Умеренно высокий– значительное влияние на рынок
• Высокий – очень сильное воздействие с радикальным влиянием на рост рынка

Несмотря на рост трендов мировой рынок распознавания голоса продолжает сталкиваться с некоторыми серьезными тормозами роста. Одна из важных проблем – трудность подавления окружающего шума. Хотя рынок распознавания речи стал свидетелем нескольких технологических достижений, неспособность подавлять окружающий шум все еще остается препятствием на пути к признанию приложений распознавания голоса. Еще одной проблемой для этого рынка является высокая стоимость приложений распознавания голоса.

Некоторые из основных задач, стоящих перед мировым рынком распознавания голоса:
• Невозможность для подавления внешних шумов
• Высокая стоимость приложения распознавание голоса
• Проблемы с точностью распознавания
• Низкий уровень безопасности в верификации диктора

Невозможность для подавления внешних шумов

Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии. Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий.

Высокая стоимость приложений распознавания голоса

Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности. Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты.

Проблемы с точностью распознавания

На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ).

Низкий уровень безопасности в верификации диктора

Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса.

Тенденции рынка

Эффект от проблем стоящих перед рынком, как ожидается, должен свести на нет наличие различных тенденций, которые появляются на рынке. Одной из таких тенденция является увеличение спроса на распознавание речи на мобильных устройствах. Осознавая огромный потенциал мобильных устройств, производители на мировом рынке распознавания голоса развивают инновационные приложения, специфичные для работы на мобильных устройствах. Это один из будущих движущих факторов. Возрастающий спрос на голосовую аутентификацию мобильного банкинга является еще одной позитивной тенденцией на рынке распознавания голоса.

Некоторые из основных тенденций на мировом рынке распознавания голоса:
• Увеличение спроса на распознавание речи на мобильных устройствах
• Рост спроса на услуги голосовой аутентификации для мобильного банкинга
• Интеграция голосовой верификации и распознавания речи
• Увеличение слияний и поглощений

Увеличение спроса на распознавание речи на мобильных устройствах

Растущее число правил дорожного движения, запрещающих использование мобильных устройств во время вождения автомобиля, увеличило спрос на приложения распознавания речи. Страны, в которых были наложены строгие ограничения: Австралия, Филиппины, США, Великобритания, Индия и Чили. В США более чем в 13 штатах, не смотря на введение Положение об использовании мобильных устройств, разрешено использовать громкую связь во время вождения. Следовательно, покупатели все чаще выбирают мобильные устройства, оснащенные приложениями распознавания речи, которые смогут помочь им получить доступ к устройству без необходимости отвлекаться на само устройство. В целях удовлетворения растущего спроса на приложения распознавания речи в мобильных устройствах, производители увеличили количество научно-исследовательских и опытно-конструкторских работ для того, чтобы развить речевые команды опций для мобильного устройства. В результате, большое количество приложений распознавания речи были включены в мобильное устройство, например, управление музыкальным плей листом, считывание адреса, считывание имени абонента, голосовые СМС сообщения и т.д.

Рост спроса на услуги голосовой аутентификации для мобильного банкинга

Необходимость в усилении проверки приводит к всеобщей интеграции голосовой аутентификации в мобильном банкинге. В таких регионах, как Северная Америка и Западная Европа, большое количество банковских клиентов используют средства банковского обслуживания по телефону. Большое количество таких финансовых институтов принимают голосовые решения аутентификации от пользователя о принятии или отклонении мобильных транзакций. Кроме того, включение голосовой аутентификации в мобильных устройствах является экономически эффективным и в то же время обеспечивает более высокий уровень безопасности. Таким образом, тенденция к интеграции голосовой аутентификации для мобильного банкинга будет расти дальше на протяжении многих лет. Действительно, банковские учреждения использующие телефоны сотрудничают с поставщиками решений голосовой аутентификации и инкорпорациями голосовой биометрии, что является ключевым конкурентным преимуществом.

Интеграция голосовой верификации и распознавания речи

Некоторые производители работают в направлении интеграции голосовой верификации и технологии распознавания речи. Вместо того, чтобы предлагать голосовую верификацию в виде отдельного продукта, производители предлагают интегрировать функционал верификации голоса и распознавания речи. Голосовая верификация помогает определить, кто говорит, и одновременно, который человек говорит. Большинство производителей начали или в процессе запуска приложений распознавания речи, которые связаны с интеграцией описанных выше двух технологий.

Увеличение слияний и поглощений

На мировом рынке распознавания голоса наблюдаются серьезные тенденции слияния и поглощения. Доминирующий лидер рынка Nuance Communications Inc., который держит более чем 50% доли на рынке, приобрел большое количество маленьких компаний на рынке распознавания речи. Из этого следует, что приобретение – это новый подход к росту компании, в результате чего у Nuance шесть приобретений в 2007 году. Эта тенденция, как ожидается, сохранится и в ближайшие несколько лет в связи с наличием многочисленных мелких игроков, которые могут быть приобретены более крупными компаниями как Nuance. Поскольку рынок является технологически ориентированным, то небольшие компании разрабатывают инновационные решения. Но из-за нехватки ресурсов эти компании не в состоянии увеличить масштабы своего бизнеса. Таким образом, крупные компании, такие как Nuance, используют процесс поглощения в качестве основной стратегии для выхода на новые рынки и отрасли. Например, Nuance приобрела Loquendo Inc. Для того, чтобы войти в регион EMEA.

Заключение

Есть 2 ветки развития систем распознавания речи (объем рынка с $1.09 по $2.42 миллиарда с 2012 по 2016 гг., темп роста +22.07%)
Преобразование речи в текст (объем рынка с $860млн. (2012г.) до $1727млн. (2016г.) — общая доля 79%-71% с 2012 по 2016 гг.)
Верификация и идентификация голоса человека (объем рынка с $229млн. (2012г.) до $697млн. — общая доля 21%-28,8% с 2012 по 2016 гг.)

В конкурентной борьбе будут более активно развиваться компании, которые существуют на грани эти двух направлений — с одной стороны улучшая точность программ распознавания речи и перевода его в текста, с другой стороны решая эту задачу посредставом идентификации диктора и верификации его речи, используя дополнительный канал (например видео) в качестве источника информации.

— Согласно исследованию Technavio — основная проблема существующих программ распознавания речи — это их подверженность в подавлении окружающего шума;
— Основная тенденция — распространение речевых технологий за счет увеличения количества и качества мобильных устройств и развития решений мобильного банкинга;
— Большую погоду в развитии технологий распознавания речи на данный момент играет государственные организации, военная сфера, медицина и финансовый сектор. Однако наметился большой спрос на такого рода технологии в виде мобильных приложений и задач голосовой навигации, а также биометрии;
— Основной рынок систем распознавания речи находится в США, однако самая быстрая и платежеспособная аудитория проживает в странах юго-восточной Азии, особенно в Японии (за счет полной голосовой автоматизации работы call-центров). Предполагается, что именно в данном регионе должен появиться сильный игрок, который станет серьезным подспорьем для мирового могущества Nuance Communications (текущая доля общемирового рынка — 70%);
— Наиболее распространенная политика на рынке систем распознавания речи — это слияния и поглощения (M&A) — компании -лидеры рынка часто скупают небольшие технологические лаборатории или фирмы по всему миру, чтобы сохранить гегемонию.
— Стоимость приложений стремительно падает, точность растет, фильтрация посторонних шумов улучшается, безопасность возрастает — предполагаемая дата реализации сверхточной технологии распознавания речи — 2014 гг.

Таким образом, по прогнозам Technavio в период 2012-2016 гг. ожидается увеличение рынка систем распознавания речи более чем в 2,5 раза. Большую долю на одном из самых динамичных и быстрых рынков IT технологии получат игроки, которые смогут в своем продукте решить 2 задачи одновременно: научиться качественно распознавать речь и переводить ее в текст, а также хорошо уметь идентифицировать голос диктора, верифицировать его из общего потока. Большим преимуществом в конкурентной борьбе можно назвать демпинг (искусственное снижение стоимости подобных технологий), создание программ с дружелюбным интерфейсом и быстрым процессом адаптации — при высоком качестве работы. Предполагается, что в течение ближайших 5 лет — появятся новые игроки на рынке, которые могут поставить под сомнение менее поворотливых крупных корпораций типа Nuance Communications.

Автор: RealSpeaker

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js