- PVSM.RU - https://www.pvsm.ru -
Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.
Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.
Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.
Для решения проблемы я написал собственную программу для разметки данных.
Работа в программе должна быть проста предельно проста и эффективна, увеличение и уменьшение изображения, перетаскивание, создание и удаление объектов, разметка происходит только с помощью мышки.

На каком то этапе разметки я натренировал в keras сетку [1]DBNet, законвертил её в TensorFlow Lite, и дело пошло в разы быстрей, в полуавтоматическом режиме, теперь приходилось больше корректировать.
В течении нескольких месяцев в свободное время я собирал и размечал изображения.
В итоге удалось собрать и разметить 19 230 изображений содержащих преимущественно латинский и русский текст, а так же немного на китайском.

Используя данный датасет я натренировал в Keras [2] выше указанную DBNet [1] сеть на основе ResNet50V2, результат детектирования после месячной тренировки на одной GeForce RTX 2060 Ghost 12GB выглядит следующим образом.

Похоже пора переходить ко второму этапу, распознавание текста.
А для тех кто не хочет собирать данные, вы можете использовать мой датасет [3].
Успехов в машинном обучении!
Автор: Игорь Зорков
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/ocr/382910
Ссылки в тексте:
[1] сетку : https://arxiv.org/abs/1911.08947
[2] Keras: https://keras.io/api/applications/
[3] датасет: https://github.com/DonkeySmall/TextDetectionDataset
[4] Источник: https://habr.com/ru/post/717862/?utm_source=habrahabr&utm_medium=rss&utm_campaign=717862
Нажмите здесь для печати.