Рубрика «ocr» - 2

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 1

Существует сайт под названием Hire2Hack, который тоже принимает заявки на «восстановление» паролей. Здесь стоимость услуги начинается от $150. Я не знаю об остальном, но вы должны предоставить им информацию о себе, потому что собираетесь им платить. Для регистрации требуется указать имя пользователя, email, пароль и так далее. Забавно то, что они принимают к оплате даже переводы по системе Western Union.

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 2 - 1

Стоит принять к сведению, что имена пользователей представляют собой очень ценную информацию, особенно когда они привязаны к адресу электронной почты. Скажите, кто из вас указывает своё настоящее имя при регистрации почтового ящика? Никто, вот это весело!Читать полностью »

Ведущий: леди и джентльмены, это выступление очень забавное и очень интересное, сегодня мы собираемся поговорить о реальных вещах, которые наблюдаются в интернете. Этот разговор немного отличается от тех, к которым мы привыкли на конференциях Black Hat, потому что мы собираемся поговорить о том, как атакующие зарабатывают деньги на своих атаках.

Мы покажем вам несколько интересных атак, которые могут принести прибыль, и расскажем об атаках, которые действительно имели место в ту ночь, когда мы перебрали «Егермейстера» и проводили мозговой штурм. Это было весело, но когда мы немного протрезвели, то поговорили с людьми, занимающимися SEO, и действительно узнали, что множество людей зарабатывают деньги на этих атаках.

Я всего лишь безмозглый менеджер среднего звена, поэтому уступаю своё место и хочу вам представить Джереми и Трея, которые намного умней меня. У меня должно было бы быть умное и весёлое введение, но его нет, так что вместо него я покажу эти слайды.Читать полностью »

В последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.

image Пост про распознавания японских и китайских иероглифов
image Пост про распознавание корейских символов

В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.

Мотивация

А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR - 3

Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать полностью »

Умный парсер числа, записанного прописью - 1

Пролог

Добрый день, уважаемые читатели. В данной статье я расскажу о том, как распарсить число, записанное прописью на русском языке.

Умным данный парсер делает возможность извлечения чисел из текста с ошибками, допущенными в результате некорректного ввода или в результате оптического распознавания текста из изображения (OCR).

Для ленивых:
Ссылка на проект github: ссылка.

Читать полностью »

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал) - 1

В процессе своей деятельности мы ежедневно сталкиваемся с проблемой определения приоритетов развития. Учитывая высокую динамику развития IT индустрии, постоянно возрастающую востребованность со стороны бизнеса и государства к новым технологиям, каждый раз, определяя вектор развития и инвестируя собственные силы и средства в научный потенциал нашей компании, мы следим за тем, чтобы все наши исследования и проекты носили фундаментальный и междисциплинарный характер.

Читать полностью »

MWC: инструкция по применению - 1

2019 год и новый Mobile World Congress. Все стремятся показать свои новинки, благодаря которым формируются главные IT-тренды на год. Мы тоже участвовали в MWC 2019 и в этом посте поделимся нашими впечатлениями от выставки, расскажем о наших новых разработках, сделаем обзор основных трендов MWC и дадим несколько советов, как подготовиться к участию в таком крупном событии.
Читать полностью »

Nomeroff Net numberplate detection OCR example

Продолжаем рассказ о том как распознавать номерные знаки для тех кто умеет писать приложение «hello world» на python-е! В этой части научимся тренировать модели, которые ищут регион заданного объекта, а также узнаем как написать простенькую RNN-сеть, которая будет справляться с чтением номера лучше чем некоторые коммерческие аналоги.
В этой части я расскажу как тренировать Nomeroff Net под Ваши данные, как получить высокое качество распознавания, как настроить поддержку GPU и ускорить все на порядок…
Читать полностью »

Как научить машину понимать инвойсы и извлекать из них данные - 1Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »

Зачем нужна низкоуровневая оптимизация на Эльбрусе или как ускорить распознающую систему в полтора раза - 1

Встретив 2019 год и немного отдохнув от разработки новых фич для Smart IDReader, мы вспомнили, что давно ничего не писали об отечественных процессорах. Поэтому мы решили срочно исправиться и показать еще одну распознающую систему на Эльбрусе.

В качестве распознающей системы была рассмотрена система распознавания объектов живописи “в неконтролируемых условиях методом с обучением по одному примеру” [1]. Эта система строит описание изображения на основе особых точек и их дескрипторов, по которому выполняет поиск в индексированной базе картин. Мы проанализировали производительность данной системы и выделили наиболее времязатратную низкоуровневую часть алгоритма, который затем оптимизировали с помощью инструментов платформы Эльбрус.

Читать полностью »

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.

Распознаём тексты на Android Things с ABBYY RTR SDK и django - 1

Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js