Рубрика «recognition»

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.

Распознаём тексты на Android Things с ABBYY RTR SDK и django - 1

Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат. Читать полностью »

В статье мы расскажем о применении свёрточных нейронных сетей для решения практической бизнес-задачи восстановления реалограммы по фотографии полок с товарами. С помощью Tensorflow Object Detection API мы натренируем модель поиска/локализации. Улучшим качество поиска мелких товаров на фотографиях с большим разрешением с помощью плавающего окна и алгоритма подавления немаксимумов. На Keras реализуем классификатор товаров по брендам. Параллельно будем сравнивать подходы и результаты с решениями 4 летней давности. Все данные, использованные в статье, доступны для скачивания, а полностью рабочий код есть на GitHub и оформлен в виде tutorial.
 
Распознавание товаров на полках с помощью нейронных сетей на технологиях Keras и Tensorflow Object Detection API - 1
Читать полностью »

Всем привет. Это моя юбилейная статья на хабре. За почти 7 лет я написал 10 статей (включая эту), 8 из них — технические. Общее количество просмотров всех статей — около полумиллиона.
Основной вклад я внёс в два хаба: PHP и Серверное администрирование. Мне нравится работать на стыке этих двух областей, но сфера моих интересов гораздо шире.
Как и многие разработчики я часто пользуюсь результатами чужого труда (статьи на хабре, код на гитхабе, ...), поэтому я всегда рад делиться с сообществом своими результатами в ответ. Написание статей — это не только возврат долга сообществу, но так же позваляет найти единомышленников, получить комментарии от профессионалов в узкой сфере и ещё больше углубить свои знания в исследуемой области.

Собственно эта статья об одном из таких моментов. В ней я опишу чем занимался почти всё своё свободное время за последние полгода. Кроме тех моментов, когда я ходил купаться в море через дорогу, смотрел сериалы или игрался в игры.

Компьютерное зрение и машинное обучение в PHP используя библиотеку opencv - 1
Читать полностью »

image
image

Как-то так вышло что на какой бы я бирже фриланса не начинал первый проект — всегда с распознаванием, поэтому в создании приложух с подобным функционалом у меня много опыта, которым я хотел сегодня с вами поделиться.
Читать полностью »

Аутентификация и идентификация по голосу с помощью когнитивных сервисов Microsoft - 1


Когнитивные сервисы представляют доступ к различным облачным сервисам, которые позволяют работать с визуальной, голосовой и текстовой информацией. Кроме того, доступны различные поисковые функции Bing.

Для того, чтобы попробовать когнитивные сервисы в действии даже не обязательно иметь аккаунт Microsoft. Получить пробный ключ можно и с помощью аккаунта GitHub или LinkedIn. Пробная подписка не ограничена по времени, но ограничена по количеству используемых ресурсов за период. Ознакомиться с онлайн демонстрацией можно по адресу: Speaker Recognition API

Далее идет описание того как опробовать в действии аутентификацию пользователя с помощью голоса. Хоть сервис еще и в состоянии preview, но, несмотря на это, уже довольно интересен.
Сервис может быть использован из различных платформ, но я буду рассматривать создание C#/XAML приложения UWP.
Читать полностью »

Задача распознавания этикеток имеет большое практическое значение. Ведь ее решение может существенно упростить работу с товарами в магазинах, начиная от мерчандайзинга и заканчивая непосредственно продажей конечному покупателю. Однако, по причине слабой формализации самой задачи и большой вариативности потенциальных объектов распознавания, универсальной технологии распознавания этикеток в настоящее время не существует. А торговые предприятия, понимая высокую коммерческую ценность подобной автоматизации, используют различные обходные пути (например, приклеивают к товарам 1D- или 2D-штрихкоды).

Несмотря на это, задача распознавания ярлыков не перестает притягивать многие пытливые умы. Вот и мы захотели найти такую практическую задачу, которая решается с помощью технологии распознавания этикеток и при этом приносит общественную пользу. Ответ нашелся сам собой во время очередного поедания знаменитых шведских фрикаделек с брусничным соусом.


Читать полностью »

Работа каскада Хаара в OpenCV в картинках: теория и практика

В прошлой статье мы подробно описали алгоритм распознавания номеров (ссылка), который заключается в получении текстового представления на заранее подготовленном изображении, содержащем рамку с номером + небольшие отступы для удобства распознавания. Мы лишь вскользь упомянули, что для выделения областей, где содержатся номера, использовался метод Виолы-Джонса. Данный метод уже описывался на хабре (ссылка, ссылка, ссылка, ссылка). Сегодня мы проиллюстрируем наглядно то, как он работает и коснёмся ранее необсужденных аспектов + в качестве бонуса будет показано, как подготовить вырезанные картинки с номерами на платформе iOS для последующего получения уже текстового представления номера.
Читать полностью »

Десяток датчиков и одна бабушка на службе прогрессаДобрый день!

Сегодня я расскажу тебе о конференциях ICDAR и CBDAR , состоявшихся в конце августа в стольном граде Вашингтоне. Точнее, не о конференциях целиком – наука там достаточно специфична, не зря помимо сотрудников ABBYY русскоязычных участников там было раз-два и обчёлся. Здесь речь пойдёт о работах команды под руководством учёного-энтузиаста по имени Кай Кунзе (Kai Kunze).

Область интересов Кая не вполне соответствует тематике конференций, но тесно с ней переплетается. Достаточно подробно Кай рассказал о своих разработках на своём пленарном докладе (Keynote talk) конференции CBDAR. А занимается Кай тем, что учит компьютер понимать, чем занимается пользователь. Так как большинство участников конференции (в том числе и я) слабо разбирается в «железе», то эта тема в докладах не была освещена должным образом, поэтому под катом рассказов о железе нет. Читать полностью »

В продолжение топика

Итак, в презентации было упомянуто, что для поиска у всех изображений:

  1. Удаляется информация о цвете.
  2. Они преобразуются к квадрату.
  3. Обрезаются края у квадрата.

Что же делать с картинкой далее?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js