Рубрика «распознавание текста» - 2

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.

Распознаём тексты на Android Things с ABBYY RTR SDK и django - 1

Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат. Читать полностью »

Как мы делали книжный сканер для судов - 1

Началось всё с того, что однажды мы увидели гигантскую хреновину (иначе не скажешь), которая выглядела один в один, как гидравлический пресс какого-нибудь завода. Она скрипела, шипела и давила книгу. Вокруг бегали специально обученные операторы и шарахались от каждого её движения.

Выяснилось, что разные архивы, библиотеки, суды и другие структуры закупают сканеры, или, скажем так, классические решения, которые по уровню начинки очень напоминают 90-е годы. Потому что тогда были разработаны первые сканеры для библиотек, и их с тех пор не особо модифицировали.

Задачей сканера было механически выровнять сканируемый материал на плоскости, а потом отсканировать.

С тех пор поменялись две вещи:
— Подходы к конструированию электроники.
— Подходы к машинному зрению.
Читать полностью »

Продолжаю делиться с вами главами книги о «Параграфе» — первом стартапе из России, покорившем мир.

После предыдущей публикации на «Хабре» прошло порядочно времени — почти два месяца. Тут я видимо должен извиниться. В качестве оправдания скажу, что для меня главное — работа над книгой. Публикация — пока что второстепенна. Выкладываю, только когда остается время после работы над рукописью.

За эти два месяца я написал еще пару глав, увеличив объем черновика до 230 тысяч знаков (из целевых 400 тысяч). Кроме того, за это время произошло еще одно важное событие: у книги появилось финальное название: «Пионеры Кремниевой долины».

Но — к делу.

Сегодня я хочу поделиться главой, которая, как я надеюсь, должна особенна заинтересовать читателей «Хабра». Ведь в ней рассказывается о принципе работе распознавателя рукописного текста, созданного «Параграфом».

Ну и есть экшн — наши герои впервые попадают в Америку, и на авансцене появляются агенты ФБР.

image

Напоследок напомню, что можно получить все 11 готовых глав книги, просто подписавшись на рассылку. Ссылки на скачивания придут в приветственном письме.

Жду отзывов и комментариев. Конструктивная критика поможет сделать книгу лучше.

Поехали!

Восемь хренятин

«Скажите, где тут можно получить политическое убежище?» — первым делом спросил Пачиков, когда самолет приземлился в США. Читать полностью »

В Office 365 и другие продукты MS добавят режим голосового ввода-вывода для дислексиков - 1

Вчера в блоге Microsoft Education Team была опубликована обширная запись, которая презентует голосового ассистента для пакета продуктов Office 365, а также ряд обновлений других продуктов. В первую очередь речь идет о добавлении функций Dictation for Office 365 Desktop Apps в веб-версии продуктов Office 365 для учащихся, а также выход продукта Office Lens на платформе Android, который ранее был доступен только пользователям iOS. И это не полный список всех «вкусностей» от Microsoft. Все эти активности проходят совместно с организацией Made Dyslexia, в рамках которых технологический гигант планирует создавать учебные материалы и пособия для учеников и студентов, страдающих дислексией.

Важность публикации MS Education Team еще и в том, что она явно показывает один из приоритетных, а главное потенциально конкурентных направлений деятельности компании — развитие систем голосового ввода и распознавания текстов на пользовательских устройствах для всех существующих экосистем, подробнее о которых под катом. Там мы кратко расскажем о новинках от Microsoft без маркетинговых восторгов и обсудим, что вообще происходит и почему когда-то «главная корпорация зла» внезапно оказалась на передовой в области обучения подрастающего поколения.
Читать полностью »

Этот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!

Человек машине помощник - 1
Читать полностью »

Текстовые капчи легко распознаются нейронными сетями глубокого обучения - 1

Нейронные сети глубокого обучения достигли больших успехов в распознавании образов. В тоже время текстовые капчи до сих пор используются в некоторых известных сервисах бесплатной электронной почты. Интересно смогут ли нейронные сети глубоко обучения справится с задачей распознавания текстовой капчи? Если да то как?
Читать полностью »

Привет! В этой серии статей приведу краткий перевод с английского языка первой главы книги Майкла Нильсона «Neural Networks and Deep Learning».

Перевод я разбил на несколько статей на хабре, чтобы было удобнее читать:
Часть 1) Введение в нейронные сети
Часть 2) Построение и градиентный спуск
Часть 3) Реализация сети для распознавания цифр
Часть 4) Немного о глубоком обучении

Введение

Человеческая визуальная система — одна из самых удивительных на свете. В каждом полушарии нашего мозга есть зрительная кора, содержащая 140 млн. нейронов с десятками млрд. связей между ними, но такая кора не одна, их несколько, и вместе они образуют настоящий суперкомпьютер в нашей голове, лучшим образом адаптированный в ходе эволюции под восприятие визуальной составляющей нашего мира. Но трудность распознавания визуальных образов становится очевидной, если вы попытаетесь написать программу для распознавания, скажем, рукописных цифр.
image
Простую интуицию — «у 9-тки есть петля сверху, и вертикальный хвост внизу» не так просто реализовать алгоритмически. Нейронные сети используют примеры, выводят некоторые правила и учатся на них. Более того чем больше примеров мы покажем сети, тем больше она узнает о рукописных цифрах, следовательно классифицирует их с большей точностью. Мы напишем программу в 74 строчки кода, которая будет определять рукописные цифры с точностью >99%. Итак, поехали!
Читать полностью »

Данная статья является переводом статьи «Automatic text recognition in digital videos» за авторством Райнера Линхарта и Франка Штубера, Университет Маннхайма, Германия.

Краткий обзор

Мы занимаемся разработкой алгоритмов для автоматической сегментации символов в фильмах, которые извлекают текст из предисловия, титров и заключения. Наши алгоритмы используют стандартные символы текста в видео, чтобы повысить качество сегментации и, как следствие, эффективность распознавания. Как результат мы имеем отдельные символы из кадров. Их можно проанализировать с помощью любого ПО OCR. Результаты распознавания нескольких экземпляров одного и того же символа во всех последующих кадрах объединяются для повышения качества распознавания и для вычисления конечного результата. Мы протестировали наши алгоритмы в серии экспериментов с видеоклипами, записанными с телевизора, и достигли хороших результатов сегментации.
Читать полностью »

Дорогие коллеги, спешим порадовать всех, кто неравнодушен к наукоемким задачам. Сегодня мы приготовили для вас перевод любопытной публикации от экспертов по базам данных из CERN, посвященный обучению и эксплуатации нейронных сетей с помощью Python и инструментария на базе Oracle PL/SQL.

Механизм подсчета нейронной сети в PL-SQL для распознавания рукописных цифр - 1

В этой статье вы найдете пример построения и развертывания базового механизма подсчета искусственной нейронной сети с использованием PL/SQL. Статья предназначена для учебных целей, в частности для практиков Oracle, которые хотят на конкретном примере познакомиться с нейронными сетями.
Читать полностью »

В прошлый раз в статье «Поиск линии корешка на фотографиях книжных разворотов» мы обещали рассказать о том, что случается с фотографией книжного разворота после этого, а именно — про устранение перспективных искажений и разгибание кривых строк текста. Без этого получить качественные результаты OCR практически невозможно.

Итак, считаем, что мы уже нашли на фотографии линию корешка, воспользуемся этим знанием, чтобы определить ваниш-точки для страниц разворота (vanishing point). Ваниш-точки – это точки схождения параллельных прямых в перспективной проекции книги на плоскость изображения. Они обе должны располагаться на продолжении этой линии, но для каждой из страниц положение точки может быть свое. Схематически это показано на следующей иллюстрации (на самом деле, это лог для отладки). Линия корешка выделена красным, линии, пересекающиеся в ваниш-точках, – зеленым.

Устранение перспективных искажений и разгибание кривых строк на фотографиях книжных разворотов - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js