Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.
Кратко:
-
Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб
-
Язык текста: можно выбрать.
- Читать полностью »



