Миллионы публикаций, не говоря уже о шпионских документах, можно прочитать на микрофильмах. Но люди по-прежнему считают эти устройства устаревшими и непривлекательными.
Читать полностью »
Рубрика «ocr» - 3
Микрофильм будет существовать половину тысячелетия
2018-08-05 в 21:26, admin, рубрики: ocr, архивы, библиотека, библиотеки, будущее, двадцать первый век, книги, микрофильм, микрофиши, поисковые системы, старое железо, Читальный залЧеловек машине помощник
2018-06-03 в 19:05, admin, рубрики: data mining, deeplearning, machine learning, ocr, Блог компании Recognitor, Компьютерное зрение, машинное обучение, распознавание текстаЭтот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!
Как мы в Smart Engines учили Sailfish OS распознаванию
2018-04-02 в 4:03, admin, рубрики: c++, hieroglyph, ocr, QML, qt, sailfish os, smart idreader, Блог компании Smart Engines, обработка изображений, отечественное ПО, Программирование, разработка мобильных приложений, Разработка под Sailfish OS, распознавание, распознавание банковских карт, распознавание изображений, распознавание паспортаВсем привет! Как вы уже знаете по нашим статьям, мы в Smart Engines занимаемся распознаванием, причем распознавать мы стараемся на чем угодно и в любых условиях. Мы поддерживаем все популярные операционные системы: iOS, Android, Windows, Linux, MacOS, Solaris. Поддерживаем мы и отечественного производителя: Эльбрус и AstraLinux. Наши алгоритмы оптимизированы под ARMv7-v8, AArch64, x86, x86_64, SPARC, E2K, MIPS.
Поэтому, когда мы увидели нарастающую популярность российской операционной системы Sailfish Mobile OS RUS, мы не смогли обойти ее стороной. Sailfish Mobile OS RUS — это POSIX-совместимая операционная система для мобильных устройств, развиваемая отечественной компанией «Открытая Мобильная Платформа» для решения задач корпоративных пользователей и государственных учреждений. По состоянию на февраль 2018 года является единственной мобильной операционной системой, включенной в реестр Отечественного ПО и прошедшей сертификацию ФСБ по классу АК1/КС1.
В этой статье мы расскажем о своем опыте портирования нашей библиотеки распознавания Smart IDReader (технология Hieroglyph) на Sailfish OS. В ней будет код, ссылки и видео. Мы хотим, чтобы эта статья была технически информативной и полезной в качестве общей инструкции для тех, кто портирует С++ приложения на Sailfish OS.
Чем распознавать на мобильных платформах?
2017-12-21 в 19:32, admin, рубрики: android, face detection, face recognition, ocr, recognition, разработка мобильных приложений, Разработка под android
Как-то так вышло что на какой бы я бирже фриланса не начинал первый проект — всегда с распознаванием, поэтому в создании приложух с подобным функционалом у меня много опыта, которым я хотел сегодня с вами поделиться.
Читать полностью »
Smart IDReader SDK — как написать Telegram-бота на Python для распознавания документов за 5 минут
2017-12-20 в 3:54, admin, рубрики: github, ocr, open source, python, SDK, smart idreader, Блог компании Smart Engines, обработка изображений, Программирование, распознавание, распознавание банковских карт, распознавание изображений, распознавание паспорта
Мы, Smart Engines, продолжаем цикл статей про то, как встроить наши технологии распознавания (паспортов, банковских карт и других) в ваши приложения. Ранее мы уже писали про встраивание на iOS и Android, а сегодня мы расскажем про то, как работать с Python-интерфейсом библиотеки распознавания Smart IDReader и напишем простого Telegram-бота.
Кстати, список поддерживаемых нами языков программирования расширился и теперь включает C++, C, C#, Objective-C, Swift, Java, Python, а также такие эзотерические языки, как Visual Basic и, разумеется, PHP. Как и раньше, мы поддерживаем все популярные и многие непопулярные операционные системы и архитектуры, а наши бесплатные приложения доступны для скачивания из App Store и Google Play.
По традиции, демо-версия Smart IDReader SDK для Python вместе с исходным кодом реализации Telegram-бота выложены на Github и доступны по ссылке.
Об использовании видеокамер с распознаванием символов на низкопроизводительных вычислительных устройствах
2017-06-19 в 15:37, admin, рубрики: LoRaWAN, ocr, автоматизация парковок, автотранспорт, Анализ и проектирование систем, визуализация данных, обработка изображений, оптическое распознавание, платежные системы, Разработка для интернета вещей, системы платной парковки, удаленное считывание показаний
Ранее, в статье рассказывалось о разработке метода распознавания, позволяющего осуществлять оптическое распознавание символов из видео «на лету». В качестве доказательства эффективности нового метода использовалась его реализация на устройстве, совершенно для этого не предназначенным — микроконтроллере esp8266. В ходе обсуждения возник вопрос: где можно использовать устройства с распознаванием на борту (считыватель)? Да еще и ценой менее $50. Понятно, что там же где и используются устройства подороже, но хотелось бы обсудить и другие варианты. Надеемся на помощь читателей в этом вопросе. А что видим мы?
Читать полностью »
Оптическое распознавание символов на микроконтроллере
2017-06-15 в 7:26, admin, рубрики: arduino, esp8266, ocr, Алгоритмы, Компьютерное зрение, обработка изображений, Программирование, программирование микроконтроллеров, Разработка для интернета вещей, распознавание символов
На сегодняшний день оптическое распознавание символов является частью решения таких прикладных задач, как распознавание и оцифровка текстов, распознавание документов, распознавание автомобильных номеров, определение номеров банковских карточек, чтение показаний счетчиков учета, определения номеров домов для создания карт (Google Street View) и т.д.
Распознавание символа означает анализ его изображения с целью получения некоторого набора признаков для сравнения их с признаками класса [ 1 ]. Выбор такого набора и способы его определения отличают разные методы распознавания, но для большинства из них необходима одномоментная информация обо всех пикселях изображения.
Последнее обстоятельство и достаточно большой объем вычислений делают невозможным использования маломощных вычислительных устройств (микроконтроллеров) для оптического распознавания символов. «Да и зачем?» — воскликнет информированный читатель, «мощности вычислительных устройств постоянно растут, а их цена падает!»[2, 3]. Допустим, что ответ будет такой: просто интересно, возможно ли упростить метод распознавания до такой степени, чтобы можно было бы использовать микроконтроллер?Читать полностью »
Smart IDReader SDK — как добавить распознавание в iOS приложение за 5 минут — теперь и на Github
2017-05-29 в 6:53, admin, рубрики: github, iOS, ocr, SDK, smart idreader, Блог компании Smart Engines, обработка изображений, Программирование, разработка мобильных приложений, разработка под iOS, распознавание, распознавание банковских карт, распознавание изображений, распознавание паспорта, метки: smart idreader
Ранее мы, Smart Engines, уже писали про наши технологии распознавания (паспорта РФ, банковских карт и многих других). Основной ценностью SDK является "ядро" или "движок" распознавания Smart IDReader, который объединяет функциональность сканирования всего, что мы умеем сканировать, под единым интерфейсом.
Библиотека распознавания написана на С++ для достижения максимальной производительности, но для использования с различными языками программирования у нас есть версии интерфейсов библиотеки на C++, C, C#, Objective-C, Java и даже Visual Basic. Мы поддерживаем все популярные операционные системы: iOS, Android, Windows, Linux, MacOS, Solaris и, разумеется, Эльбрус и AstraLinux. Наши алгоритмы оптимизированы под такие архитектуры, как ARMv7-v8, AArch64, x86, x86_64, SPARC, E2K.
Мы решили выложить демо-версию нашего SDK на Github, чтобы вы могли ознакомиться с интерфейсом библиотеки (как Objective-C часть, так и C++), почитать документацию и попробовать встроить Smart IDReader в ваше приложение. Репозиторий с демо-версией Smart IDReader iOS SDK доступен по ссылке: https://github.com/SmartEngines/SmartIDReader-iOS-SDK
Чтобы посмотреть, как Smart IDReader выглядит в нашем исполнении после встраивания, вы можете скачать бесплатные полные версии приложений из App Store и Google Play.
В этой статье мы расскажем, как iOS разработчик может использовать наши технологии для добавления функциональности распознавания документов в своё приложение.
Сегментация текстовых строк документов на символы с помощью сверточных и рекуррентных нейронных сетей
2017-05-04 в 10:16, admin, рубрики: ocr, Алгоритмы, Блог компании Smart Engines, машинное обучение, нейронные сети, обработка изображений, Программирование, распознавание, распознавание паспорта, рекуррентные сети, свёрточные сети, сегментацияСегментация строки на символы является одним из важнейших этапов в процессе оптического распознавания символов (OCR), в частности, при оптическом распознавании изображений документов. Сегментацией строки называется декомпозиция изображения, содержащего последовательность символов, на фрагменты, содержащие отдельные символы.
Важность сегментации обусловлена тем обстоятельством, что в основе большинства современных систем оптического распознавания текста лежат классификаторы (в том числе — нейросетевые) отдельных символов, а не слов или фрагментов текста. В таких системах ошибки неправильного проставления разрезов между символами как правило являются причиной львиной доли ошибок конечного распознавания.
Поиск границ символов усложняется из-за артефактов печати и оцифровки (сканирования) документа, приводящим к “рассыпанию” и “склеиванию” символов. В случае использования стационарных или мобильных малоразмерных видеокамер спектр артефактов оцифровки существенно пополняется: возможны дефокусировка и смазывание, проективные искажения, деформирование и изгибы документа. При съемке камерой в естественных сценах на изображениях часто возникают паразитные перепады яркости (тени, отражения), а также цветовые искажения и цифровой шум в результате низкой освещенности. На рисунке ниже показаны примеры сложных случаев при сегментации полей паспорта РФ.
В этой статье мы расскажем о методе сегментации символов текстовых строк документов, разработанном нами в Smart Engines, основанный на обучении сверточных и рекуррентных нейронных сетей. Основным рассматриваемым в работе документом является паспорт РФ.
Читать полностью »
Как pdf (изображения) преобразовать в текстовый txt-файл
2016-11-02 в 12:40, admin, рубрики: languagetool, ocr, PDF, python, stduviewer, tesseract, txt, обработка изображенийВы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.
Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
Читать полностью »