Рубрика «ocr»

Извлечение текста из файлов PDF при помощи Python

2023-10-04 в 13:00, admin, рубрики: ocr, optical character recognition, PDF, pdf2image, pdfminer, pdfplumber, pillow, pytesseract, ruvds_перевод, распознавание текста

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать полностью »

Как я делаю OCR

2023-02-19 в 11:17, admin, рубрики: ocr, машинное обучение, оптическое распознавание символов, разметка данных, распознавание текста

Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.

Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.

Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.

Для решения проблемы я написал собственную программу для разметки данных.

Читать полностью »

Как Яндекс научился распознавать, что написано в рукописных архивах

2023-01-25 в 7:02, admin, рубрики: ocr, архивы, Блог компании Яндекс, искусственный интеллект, машинное обучение, нейросети, обработка изображений, поиск, поисковые технологии, распознавание текста, яндекс

Привет. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам Читать полностью »

Строим OCR-ферму на базе айфонов для скрапинга мемов в Интернете

2023-01-20 в 9:45, admin, рубрики: DIY, diy или сделай сам, elasticsearch, hardware, ocr, postgres, Raspberry, Программирование, распознавание текста

Каждый, кто провел какое-то время в Интернете хорошо представляет насколько популярным стало использование мемов в онлайне. Находить новые мемы о последних событиях и делиться ими с друзьями, — это мое давнее времяпрепровождение.

Большинству мемов свойственна ироническая двойственность: чем более они нишевые, тем более забавными они кажутся. Некоторые из лучших мемов — это просто глупые шутки между моими друзьями или из невероятно нишевой индустрии информационной безопасности.

Читать полностью »

Если у вас плохой почерк, ваши письма попадают в ад. Только это UX-UI-ад для людей

2023-01-06 в 8:01, admin, рубрики: ocr, timeweb_статьи, usability, usps, ux/ui, Блог компании Timeweb Cloud, выгорание, интерфейсы, обработка изображений, распознавание изображений, скорость работы, сортировка, условия работы

В Штатах адреса всей бумажной почты сканируются и автоматически распознаются. Однако, если адрес написан неразборчиво или поврежден, он отправляется в Центр удаленного декодирования Почтовой службы США в Солт-Лейк-Сити.

Там около 800 человек круглосуточно занимаются тем, что за 4 секунды должны перевести нечитаемый адрес в странный код, разработанный Siemens в 1990-х годах (надо ли добавлять, что он не интуитивен и сложен?). Поскольку работники используют сотни быстрых сочетаний клавиш, у них даже клавиатуры специальные.

Если меня когда-нибудь спросят о странной организации работ или о плохом UX/UI-дизайне, пожалуй, я покажу им вот этот пост. Посмотрите, как может выглядеть такая деятельность.
Читать полностью »

Оптическое распознавание символов с помощью Rust и WebAssembly

2022-03-20 в 10:00, admin, рубрики: ocr, Pokemon, python, Rust, ruvds_перевод, webassembly, Блог компании RUVDS.com, машинное зрение, обработка изображений

После переписывания Cyberscore я захотел отправить на сайт какие-нибудь результаты. Последнее, во что я играл, это Pokémon Legends: Arceus, по которой на Cyberscore есть около 3000 таблиц результатов. Я не собирался отправлять столько рекордов вручную, поэтому начал придумывать инструмент для автоматизации этого процесса.

Эта статья посвящена двум вещам: процессу извлечения результатов из JPG с помощью Rust и встраиванию этого функционала во фронтенд Cyberscore.
Читать полностью »

Почему так сложно извлекать текст из PDF?

2020-10-13 в 12:29, admin, рубрики: ocr, PDF, Программирование, текст

Перевод статьи с сайта компании FilingDB, составляющей базу данных из документации европейских компаний

Согласно распространённым представлениям, извлечение текста из PDF не должно быть такой уж сложной задачей. Ведь вот он, текст, прямо у нас перед глазами, и люди постоянно и с большим успехом воспринимают содержимое PDF. Откуда взяться трудностям в автоматическом извлечении текста?

Оказывается, точно так же, как работа с именами людей сложна для алгоритмов из-за множества пограничных случаев и неправильных предположений, так и работа с PDF сложна из-за чрезвычайной гибкости PDF-формата.

Основная проблема в том, что PDF не предполагался как формат для ввода данных – его разрабатывали, как канал вывода, дающий возможность тонкой подстройки вида итогового документа.
Читать полностью »

8-битные сети на Эльбрусе, есть ли смысл?

2020-03-31 в 8:07, admin, рубрики: ocr, OCR-технологии, Блог компании Smart Engines, искусственный интеллект, машинное обучение, нейросетевой модель, обработка изображений, программирование микроконтроллеров, распознавание образов, Эльбрус, эльбрус-4с

Привет! Мы вдруг поняли, что наша последняя статья про Эльбрус вышла год назад. Поэтому мы решили исправить эту досадную оплошность, ведь мы не бросили эту тему!

Сложно представить распознавание без нейронных сетей, поэтому мы расскажем о том, как мы запустили 8-битные сетки на Эльбрусе и что из этого получилось. Вообще, модель с 8-битными коэффициентами и входами и 32-битными промежуточными вычислениями крайне популярна. Например, Google [1] и Facebook [2] завели ее собственные реализации, которые оптимизируют доступ в память, задействуют SIMD и позволяют ускорить вычисления на 25% и больше без заметного снижения точности (это конечно зависит от архитектуры нейронной сети и вычислителя, но нужно же было объяснить, насколько это круто?).

8-битные сети на Эльбрусе, есть ли смысл? - 1 Читать полностью »

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 3

2019-11-18 в 8:45, admin, рубрики: ACH, ASP, ocr, RSnake, SQL-инъекции, Блог компании ua-hosting.company, информационная безопасность, исскуственный дефицит DoS, капча, конференции, межсайтовый скриптинг

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 1
Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 2

Они зашли так далеко, что стали обсуждать возможность привлечения водителей UPS к очной ставке с подозреваемой. Давайте сейчас проверим, является ли законным то, что процитировано на этом слайде?

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 3 - 1

Вот что отвечает Федеральная торговая комиссия FTC на вопрос: «Должен ли я вернуть или оплатить товар, который никогда не заказывал?» — «Нет. Если вы получили товар, который не заказывали, то имеете законное право принять его как бесплатный подарок». Это звучит этично? Я умываю руки, потому что недостаточно умён, чтобы обсуждать такие вопросы.

Но что интересно – мы видим тенденцию, при которой чем меньше технологий мы используем, тем больше денег получаем. Читать полностью »

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе

2019-11-18 в 7:24, admin, рубрики: ocr, алиса, Блог компании Яндекс, искусственный интеллект, машинное обучение, обработка изображений, распознавание текста, яндекс

Привет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе - 1

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ocr»

Извлечение текста из файлов PDF при помощи Python

▍ Введение

Как я делаю OCR

Как Яндекс научился распознавать, что написано в рукописных архивах

Строим OCR-ферму на базе айфонов для скрапинга мемов в Интернете

Если у вас плохой почерк, ваши письма попадают в ад. Только это UX-UI-ад для людей

Оптическое распознавание символов с помощью Rust и WebAssembly

Почему так сложно извлекать текст из PDF?

8-битные сети на Эльбрусе, есть ли смысл?

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 3

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ocr»

▍ Введение

Новости

Актуальные темы

Архив