Рубрика «ocr» - 2

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Кратко:

  1. Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб

  2. Язык текста: можно выбрать.

  3. Читать полностью »
Автоматизация без кода: как FastML справляется с документами за несколько кликов - 1

Привет!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесьЧитать полностью »

Рукописный редактор на Python: инструкция для тех, кто хочет «рисовать» код - 1

Привет, меня зовут Лёня! Я автор YouTube‑канала eleday о программировании на Python. Недавно в школе была проверочная работа и мне пришлось писать код на бумаге. Такой подход показался странным: все-таки программа может исполняться только на компьютере и логично набирать ее там же. Подобная цепочка рассуждений привела к интересной идее — редактору рукописного ввода. В этой статье расскажу о задумке и деталях ее реализации. Создадим виртуальный лист, на котором можно набросать код от руки — и он будет исполняться!Читать полностью »

Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито, занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии свидетельства транспортного средства (СТС). В статье описала особенности задачи и рассказала, как мы решали её с помощью декомпозиции. 

Материал будет полезен начинающим и мидл-DS-инженерам, которые хотят узнать больше про декомпозицию задачи на этапах разметки и построения моделей. 

Читать полностью »

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса - 1

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)

Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).

Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.Читать полностью »

В этой статье мы разберём, как написать программу для решения судоку. Предполагается, что ранее читатель не пробовал алгоритмически решать судоку, тем более — с применением нейронных сетей.

Я легко увлекаюсь. Мои пристрастия меняются, но сейчас на первых ролях — многопользовательские партии в Call of Duty: Modern Warfare 3 и судоку. Что касается второй — мне нравится, как она разгружает мне голову и умиротворяет меня. Здесь только вы, числа и достаточно очевидные стратегии, позволяющие выиграть.

Читать полностью »

Иногда надо что-то быстро оцифровать - время работы магазина с его таблички, визитную карточку, квитанцию почтового отправления. Приходится делать фотографию, которая потом теряется в куче других фотографий, и не может быть найдена по контексту.

Идея - сделать фото, перевести в текст, сразу отформатировать/обработать/перевести как надо и сохранить уже куда хочешь - в Telegram избранное, Google Keep, Google Контакты, Obsidian и т.д. И чтоб всё было быстро и удобно.

Так появился Argus Читать полностью »

Привет! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список документов, которые могут быть распознаны при помощи наших решений, – и будем делать это и дальше. Но что если бизнесу нужно оперативно настроить распознавание нового корпоративного документа с жесткой структурой? Сегодня такая потребность есть практически у любой организации.

Читать полностью »

Всем привет! Меня зовут Александра Пилюгина, я продакт-менеджер команды «QR и Фотоплатеж» в управлении «Платежи», банк ВТБ. К нам каждый месяц приходит около 500 тысяч новых клиентов. Специально для них наша команда разработала сервис переноса платежей в ВТБ Онлайн, попутно решив множество проблем с распознаванием платежных документов и извлечения из них полезной информации.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js