Рубрика «распознавание изображений»

Статья состоит из двух частей:

  1. Краткое описание некоторых архитектур сетей по обнаружению объектов на изображении и сегментации изображений с самыми понятными для меня ссылками на ресурсы. Старался выбирать видео пояснения и желательно на русском языке.
  2. Вторая часть состоит в попытке осознать направление развития архитектур нейронных сетей. И технологий на их основе.

Понимать архитектуры нейросетей непросто

Рисунок 1 – Понимать архитектуры нейросетей непросто

Все началось с того, что сделал два демонстрационных приложения по классификации и обнаружению объектов на телефоне Android:

  • Back-end demo, когда данные обрабатываются на сервере и передаются на телефон. Классификация изображений (image classification) трех типов медведей: бурого, черного и плюшевого.
  • Front-end demo, когда данные обрабатываются на самом телефоне. Обнаружение объектов (object detection) трех типов: фундук, инжир и финик.

Читать полностью »

Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата необъятной области DS. Однако для начинающего специалиста будет полезна.

Нейронные сети – это...

Читать полностью »

Последние несколько лет я занимался проектированием и изготовлением машины, которая сможет распознавать и сортировать детали LEGO. Важнейшая часть машины — это Capture Unit, небольшое, почти полностью закрытое отделение, в котором есть конвейерная лента, освещение и камера.

Высокоскоростное машинное зрение в универсальном устройстве для сортировки деталей LEGO - 1

Освещение вы увидите чуть ниже.

Камера делает фотографии поступающих по конвейеру деталей LEGO, а затем передаёт изображения по беспроводному каналу на сервер, выполняющий алгоритм искусственного интеллекта для распознавания детали среди тысяч возможных элементов LEGO. Подробнее об ИИ-алгоритме я расскажу в будущих статьях, а эта статья будет посвящена обработке, которая выполняется между «сырым» выводом видео камеры и входом в нейросеть.

Основная проблема, которую мне нужно было решить — это преобразование видеопотока с конвейера в отдельные изображения деталей, которые бы могла использовать нейросеть.
Читать полностью »

imageРешение задачи распознавания изображений (OCR) сопряжено с различными сложностями. То картинку не получается распознать из-за нестандартной цветовой схемы или из-за искажений. То заказчик хочет распознавать все изображения без каких-либо ограничений, а это далеко не всегда возможно. Проблемы разные, и решить их сходу не всегда удается. В этом посте мы дадим несколько полезных советов, исходя из опыта разруливания реальных ситуаций у заказчиков.Читать полностью »

Как распознать картинки и тексты на телефоне с помощью ML Kit - 1

Два года назад Сундар Пичаи, глава Google, рассказал о том, что компания из mobile-first становится AI-first и фокусируется на машинном обучении. Год спустя вышел Machine Learning Kit — набор инструментов, с которым можно эффективно использовать ML на iOS и Android.

Об ML Kit очень много говорят в США, но на русском языке информации почти нет. А так как мы используем его для некоторых задач в Яндекс.Деньгах, я решил поделиться опытом и показать на примерах, как с его помощью можно делать интересные вещи.

Меня зовут Юра, последний год я работаю в команде Яндекс.Денег над мобильным кошельком. Мы поговорим про машинное обучение в мобайле.

Читать полностью »

Теперь фреймворк Vision умеет распознавать текст по-настоящему, а не как раньше. С нетерпением ждём, когда сможем применить это в Dodo IS. А пока перевод статьи о распознавании карточек из настольной игры Magic The Gathering и извлечении из них текстовой информации.

Как распознать текст с фото: новые возможности фреймворка Vision - 1
Читать полностью »

Привет! Весной 2019 года прошел очередной Think Developers Workshop, на котором все желающие могли собрать картонного робота TJBota под управлением IBM Watson Services. Под катом находится подробная инструкция, из чего и как собрать такого робота, полезные ссылки и простейшие рецепты, демонстрирующие некоторые когнитивные возможности сервисов Watson, а также небольшой анонс двух июльских семинаров о Watson Services в московском офисе IBM.

image

Читать полностью »

В МТИ создали модель ИИ, которая распознает и изменяет состав пиццы - 1

Исследователи Массачусетского технологического института нашли еще одно применение для технологий распознавания изображений. Разработанная ими модель PizzaGAN определяет набор ингредиентов в пицце по фотографии и вносит в нее коррективы, добавляя или убирая любые топпинги по запросу.
Читать полностью »

Разработка российской команды реалистично анимирует лица по одному кадру - 1

Новый проект от группы российских исследователей из Сколково знаменует очередной этап в развитии технологий распознавания и генерации лиц. Созданная ими нейросеть синтезирует динамичные изображения людей на базе любого числа доступных изображений, начиная с одного.
Читать полностью »

Ограниченность алгоритмов распознавания изображений - 1

Нет, речь пойдет не об алгоритмах распознавания изображений – речь пойдет об ограниченности их использования, в частности при создании ИИ.

По моему мнению, распознавание визуальных образов человеком и компьютерной системой сильно различается – настолько сильно, что имеет между собой мало общего. Когда человек говорит «Я вижу», на самом деле он более мыслит, чем видит, чего не скажешь о компьютерной системе, снабженной оборудованием для распознавания изображений.

Знаю, мысль не нова, но предлагаю еще раз убедиться в ее справедливости на примере робота, претендующего на обладание интеллектом. Тестовый вопрос звучит так: каким робот должен видеть окружающий мир, чтобы полностью уподобиться человеку?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js