- PVSM.RU - https://www.pvsm.ru -

Как я делаю OCR

Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.

Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.

Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.

Для решения проблемы я написал собственную программу для разметки данных.

Работа в программе должна быть проста предельно проста и эффективна, увеличение и уменьшение изображения, перетаскивание, создание и удаление объектов, разметка происходит только с помощью мышки.

Как я делаю OCR - 1

На каком то этапе разметки я натренировал в keras сетку [1]DBNet, законвертил её в TensorFlow Lite, и дело пошло в разы быстрей, в полуавтоматическом режиме, теперь приходилось больше корректировать.

В течении нескольких месяцев в свободное время я собирал и размечал изображения.

В итоге удалось собрать и разметить 19 230 изображений содержащих преимущественно латинский и русский текст, а так же немного на китайском.

Как я делаю OCR - 2

Используя данный датасет я натренировал в Keras [2] выше указанную DBNet [1] сеть на основе ResNet50V2, результат детектирования после месячной тренировки на одной GeForce RTX 2060 Ghost 12GB выглядит следующим образом.

Как я делаю OCR - 3

Похоже пора переходить ко второму этапу, распознавание текста.

А для тех кто не хочет собирать данные, вы можете использовать мой датасет [3].

Успехов в машинном обучении!

Автор: Игорь Зорков

Источник [4]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/ocr/382910

Ссылки в тексте:

[1] сетку : https://arxiv.org/abs/1911.08947

[2] Keras: https://keras.io/api/applications/

[3] датасет: https://github.com/DonkeySmall/TextDetectionDataset

[4] Источник: https://habr.com/ru/post/717862/?utm_source=habrahabr&utm_medium=rss&utm_campaign=717862