- PVSM.RU - https://www.pvsm.ru -

Теперь Google поддерживает распознавание текста с более чем 200 языков

Система оптического распознавания текстов (OCR) на Google Drive пополнила [1] список поддерживаемых языков — теперь их количество превышает 200 (клингонского пока нет). Вместе с тем, число систем письма, в которых может быть написан текст, выросло до 25. Для добавления новых языков и улучшения распознавания старых инженеры используют скрытые модели Маркова [2], которые применяются в компании для возможностей распознавания речи и голосового поиска.


Последовательность распознавания текста очень проста. Необходимо загрузить файл (картинки в JPG, PNG, GIF-форматах или PDF-документ) на сервис:

image

И открыть его с помощью Google Docs — в примере используется фрагмент на хинди. Аналогично процесс выглядит и на Android. Распознанный текст появится ниже используемой картинки. Система обрабатывает графические файлы в течение примерно 30 секунд, распознавание PDF может длиться до минуты.

image

Совсем без ограничений использовать сервис не получится: максимальный объём загружаемой картинки составляет 2 Мб, а в PDF-документе будут обработаны только первые десять страниц.

Ранее Google представила инструмент [3] для рукописного ввода теста на сенсорных экранах, которое используется в мобильных приложениях Google Translate и в специально выпущенной клавиатуре. Ввод рукописного русского текста в приложениях поддерживается достаточно хорошо для беглого и не очень аккуратного почерка.

Автор: jeston

Источник [4]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/google/90230

Ссылки в тексте:

[1] пополнила: http://googleresearch.blogspot.com/2015/05/paper-to-digital-in-200-languages.html

[2] скрытые модели Маркова: http://habrahabr.ru/post/134954/

[3] инструмент: http://geektimes.ru/post/249074/

[4] Источник: http://geektimes.ru/post/250130/