Рубрика «распознавание документов»

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Кратко:

  1. Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб

  2. Язык текста: можно выбрать.

  3. Читать полностью »

Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито, занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии свидетельства транспортного средства (СТС). В статье описала особенности задачи и рассказала, как мы решали её с помощью декомпозиции. 

Материал будет полезен начинающим и мидл-DS-инженерам, которые хотят узнать больше про декомпозицию задачи на этапах разметки и построения моделей. 

Читать полностью »

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Почему ICDAR? 

Море, солнце, пляжЧитать полностью »

IDP и OCR в вопросах и ответах: Главное, что нужно знать - 1

Привет! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines). Без долгих вступлений - погнали!

Скрытый текст

OCR значительно превосходит IDP. И вот почему -

Программы распознавания данных удостоверений личности появились не так уж и давно - всего пару десятилетий назад, так что их можно правомерно считать практически ровесниками самого паспорта РФ. Но за это время система OCR прошла большой путь, а наряду с качеством и результативностью повысилась и ее доступность. Из громоздких и редких специальных сканеров технология перекочевала буквально в карман каждого из нас, и теперь обработать любой документ можно с обыкновенного смартфона или веб-камеры. Мы в Smart EnginesЧитать полностью »

Как мы научили нейросеть определять документы - 1

Этим летом мы научили нейронную сеть определять, присутствует ли на изображении документ, и если да — то какой именно.

Для чего это понадобилось

Чтобы разгрузить сотрудников и обезопасить людей от мошенников. Мы применяем новую нейросеть в двух сферах: когда пользователь восстанавливает доступ к странице и для скрытия личных документов из общего поиска.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js