Рубрика «распознавание текста» - 3

Пропажа одиннадцатого числа месяца и других дат - 1

В ноябре 2012 года Рэндал Монро опубликовал комикс xkcd с календарём, в котором размер чисел каждого месяца был пропорционален тому, как часто это число упоминается в книгах по своему имени (например, «14 октября») в базе данных Google Ngrams с 2000 года. Большинство крупных дат довольно очевидны: 4 июля, 25 декабря, первое число каждого месяца, последнее число почти всех месяцев, ну и 11 сентября, оставляющее всех позади. Не так уж много дней выглядит сильно меньше остальных. К примеру, 29 февраля – крохотная точка. Но если приглядеться, можно увидеть, что 11 число каждого месяца относительно маленькое. К комиксу шло примечание: «Во всех остальных, кроме сентября, месяцах, 11-е упоминается гораздо реже остальных дат. Так было и до 11 сентября, и я не знаю, почему это так». Я покопался в данных, и думаю, что разобрался, почему.
Читать полностью »

Разве Tesseract распознаёт медленно? - 1

Работу каждой программы можно ускорить минимум в десять раз

Рабочая установка разработчиков Smart Engines

Мы расскажем о нескольких приемах ускорения распознавания с помощью OCR Tesseract. Всё рассказанное было использовано в реализации проекта, смысл которого состоял в классификации большого числа образов страниц деловых документов (таких документов как паспорт, договор, контракт, доверенность, свидетельство о регистрации и т.п.) и сохранении результатов в электронном архиве. Часть алгоритмов классификации была основана на анализе собственно образов страниц, а часть – на анализе извлечённых из образа текстов. Для извлечения текстов было необходимо распознавание с помощью OCR.

Читать полностью »

Распознавание текста из видеопотока: будущее мобильного OCR - 1В последнее время мы довольно часто рассказываем в блоге о наших технологиях распознавания, которые работают на мобильных устройствах и распознают фотографии, сделанные камерами этих устройств. Сейчас мы движемся дальше и учимся работать не с фотографиями, а с видеопотоком. И сегодня мы хотим рассказать вам чуть подробней, что это означает и где в повседневной жизни может пригодиться распознавание текста из видеопотока.

Кстати, сейчас мы расширяем команду, занимающуюся созданием продукта для распознавания текста из видеопотока на смартфонах. Если вы Android или iOS-разработчик с опытом написания высоконагруженных приложений и у вас есть желание разрабатывать новые технологии вместе с нами, спешите откликнуться на вакансию.

О видеопотоке и распознавании

Для начала скажем, с каким именно видеопотоком мы работаем. Читать полностью »

Постановка задачи компьютерного зрения - 1
Последние лет восемь я активно занимаюсь задачами, связанными с распознаванием образов, компьютерным зрением, машинным обучением. Получилось накопить достаточно большой багаж опыта и проектов (что-то своё, что-то в ранге штатного программиста, что-то под заказ). К тому же, с тех пор, как я написал пару статей на Хабре, со мной часто связываются читатели, просят помочь с их задачей, посоветовать что-то. Так что достаточно часто натыкаюсь на совершенно непредсказуемые применения CV алгоритмов.
Но, чёрт подери, в 90% случаев я вижу одну и ту же системную ошибку. Раз за разом. За последние лет 5 я её объяснял уже десяткам людей. Да что там, периодически и сам её совершаю…

В 99% задач компьютерного зрения то представление о задаче, которое вы сформулировали у себя в голове, а тем более тот путь решения, который вы наметили, не имеет с реальностью ничего общего. Всегда будут возникать ситуации, про которые вы даже не могли подумать. Единственный способ сформулировать задачу — набрать базу примеров и работать с ней, учитывая как идеальные, так и самые плохие ситуации. Чем шире база-тем точнее поставлена задача. Без базы говорить о задаче нельзя.

Тривиальная мысль. Но все ошибаются. Абсолютно все. В статье я приведу несколько примеров таких ситуаций. Когда задача поставлена плохо, когда хорошо. И какие подводные камни вас ждут в формировании ТЗ для систем компьютерного зрения.
Читать полностью »

image

На конференции F8 для разработчиков приложений, работающих с Facebook, главный инженер компании Майк Шропфер объявил о прорыве, совершённом в области искусственного интеллекта. Поводом для заявления послужила работа двух систем ИИ.

Первая система способна распознать, какой из 487 различных видов спорта показан на видео. При этом, например, она отличает фигурное катание от хоккея. Неизвестно, насколько это проще или сложнее для ИИ, чем отличить кошку от собаки, но в любом случае, это очень интересная система. Уже хочется опробовать её, подсунув для распознавания фрагмент батальной сцены из «Властелина колец».
Читать полностью »

image

Поиск текста в изображениях — достаточно популярная функция Evernote. Мы бы хотели рассказать, как она работает и ответить на некоторые частые вопросы.

Как происходит обработка изображений

Когда в процессе синхронизации заметка отправляется в Evernote, любые ресурсы, включенные в эту заметку, с MIME-типами PNG, JPG или GIF пересылаются на отдельный набор серверов, занятых исключительно распознаванием текста во вложенных изображениях и возвращением найденных результатов. Эти результаты добавляются в заметку в виде скрытого (точнее не видимого при просмотре заметки) набора метаданных под названием recoIndex. Весь recoIndex можно посмотреть, если экспортировать заметку в файл ENEX.

Например, вот старая заметка в одном из наших аккаунтов со снимком пивной бутылки.
Читать полностью »

Укрощение строптивого (на самом деле, нет) FineReader

После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на конкретном примере – что может пойти не по плану и как с этим бороться.
Читать полностью »

Столкнулся я с этим устройством много лет назад, когда по долгу службы собирал в сети некоторые данные. Сотнями гигабайт с просторов всемирной и глобальной добывал я адреса и телефоны, имена и должности, сферы деятельности и прочую потенциально полезную для компании информацию. Что с ней дальше делала машина компании мне не сообщалось, да и я, в общем-то, не очень уж и интересовался. Знаю лишь, что фильтровалась она особым способом, да складировалось в железных сундуках серверной и периодически использовалась в благих, безусловно, целях. Работа была не пыльная и была бы она скучна, как сольная карьера Влада Сташевского, если бы не одно замечание, вернее сказать, особенность — сервисы, то есть справочники, которые так любезно предоставляли мне информацию: иногда они жадничали и вредничали, словно красивые девочки. Блокировали мой IP, просили ввести им капчу, некоторые откровенно подсовывали ложную информацию, но самые интересные были те, что не позволяли глядеть их текст в HTML, а кокетливо отображали его в виде нарисованных на картинке символов. Вот они то, сами того не ведая, и скрашивали, шельмочки, мои серые будни. И был у меня тогда особый интерес, даже сказать, азарт — распознать тот текст на картинке без помощи сторонних библиотек (про них я, быть может, скажу позже), а только лишь средствами прекрасного, во всех отношениях .NET. И теперь, много лет спустя, я хотел бы, с вашего позволения, проникнуться, что называется, ностальгией.
Читать полностью »

Содержание

imageРаспознавание текста в ABBYY FineReader (1/2)
imageРаспознавание текста в ABBYY FineReader (2/2)

Общая теория распознавания

Мы, наконец, дошли до самой интересной темы – распознавания символа. Но для начала давайте немного разберемся с теорией, чтобы было понятнее, что именно и почему мы делаем. Общая задача автоматического распознавания или машинного обучения выглядит следующим образом.

Есть некоторый набор классов C и пространство объектов R. Есть некая внешняя «экспертная» система, с помощью которой для произвольного объекта можно определить, к какому классу он относится.

Задача автоматического распознавания – построить такую систему, которая на основе переданной ей ограниченной выборки заранее классифицированных объектов выдавала бы для любого нового переданного ей объекта соответствующий ему класс. При этом суммарная разница в классификации между «экспертной» системой и системой автоматического распознавания должна быть минимальной.

Система классов может быть дискретной или непрерывной, множество объектов может быть какой угодно структуры, экспертная система может быть произвольной, начиная с обычных человеческих экспертов, оценка точности может производиться только на некоторой выборке объектов. Но в своей основе практически любая задача автоматического распознавания (от ранжирования результатов поиска до медицинской диагностики) сводится именно к построению связки между объектами из заданного пространства и набором классов.

Распознавание текста в ABBYY FineReader (2 2)
Читать полностью »

Систему распознавания текста в FineReader можно описать очень просто.

У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.

Распознавание текста в ABBYY FineReader

Выглядит очень просто, но дьявол, как обычно, кроется в деталях.

Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.

Распознавание текста в ABBYY FineReader

В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js