Теперь Google поддерживает распознавание текста с более чем 200 языков

Система оптического распознавания текстов (OCR) на Google Drive пополнила ^[1] список поддерживаемых языков — теперь их количество превышает 200 (клингонского пока нет). Вместе с тем, число систем письма, в которых может быть написан текст, выросло до 25. Для добавления новых языков и улучшения распознавания старых инженеры используют скрытые модели Маркова ^[2], которые применяются в компании для возможностей распознавания речи и голосового поиска.

Последовательность распознавания текста очень проста. Необходимо загрузить файл (картинки в JPG, PNG, GIF-форматах или PDF-документ) на сервис:

И открыть его с помощью Google Docs — в примере используется фрагмент на хинди. Аналогично процесс выглядит и на Android. Распознанный текст появится ниже используемой картинки. Система обрабатывает графические файлы в течение примерно 30 секунд, распознавание PDF может длиться до минуты.

Совсем без ограничений использовать сервис не получится: максимальный объём загружаемой картинки составляет 2 Мб, а в PDF-документе будут обработаны только первые десять страниц.

Ранее Google представила инструмент ^[3] для рукописного ввода теста на сенсорных экранах, которое используется в мобильных приложениях Google Translate и в специально выпущенной клавиатуре. Ввод рукописного русского текста в приложениях поддерживается достаточно хорошо для беглого и не очень аккуратного почерка.

Автор: jeston

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/google/90230

Ссылки в тексте:

[1] пополнила: http://googleresearch.blogspot.com/2015/05/paper-to-digital-in-200-languages.html

[2] скрытые модели Маркова: http://habrahabr.ru/post/134954/

[3] инструмент: http://geektimes.ru/post/249074/

[4] Источник: http://geektimes.ru/post/250130/

Нажмите здесь для печати.