Рубрика «распознавание образов» - 6

Wolfram Alpha научился описывать содержимое любых картинок и фото - 1

Разработчики сайта Wolfram Alpha добавили в копилку уникальных возможностей системы ещё одну удивительную функцию – распознавание любых фотографий. Каждый желающий может опробовать ImageIdentify в работе. Достаточно загрузить картинку на демонстрационный сайт и через несколько секунд вы получите ответ. Как утверждают сами разработчики – почти всегда правильный.

Стивен Вольфрам, основатель и главный идеолог компании, подробно описывает работу системы в записи в своём блоге. Стивен говорит, что 40 лет ждал момента, когда компьютеры научатся распознавать изображения, и был уверен в том, что этот момент настанет. Задача распознавания – одна из самых базовых для человека, и одна из самых сложных – для компьютерных систем и алгоритмов.

Стивен пишет, что хотя алгоритм и не всегда распознаёт изображения верно, даже его ошибки сильно напоминают человеческие.

Распознавание изображений теперь работает не только на демонстрационном сайте, но и в самом Wolfram Language. Можно задать изображение, получить его описание, а потом использовать уже само описание – получить, например, определение предмета из словарной статьи, или построить облако слов из статьи в Википедии.
Читать полностью »

Lily: умная камера-дрон летает за тобой - 1

Многие люди любят делать автопортреты и даже применяют для этого всякие хитрые приспособления вроде палок с дистанционным спуском фотоаппарата и т. д. Но как сфотографироваться, если ты спускаешься на лыжах или усиленно гребёшь на лодке?

Здесь на помощь придёт Lily — гибрид личного смартфона и квадрокоптера. Лили будет неотрывно следить за тобой и снимать.
Читать полностью »

Мы мельком заглянули в будущее онлайн поиска, и вот что мы там увидели: 17 секундное видео со щеночком, предоставленное Clarifai – небольшим стартапом, специализирующимся на искусственном интеллекте.

Видео показывает милого щеночка, тыкающегося в свою хозяйку, но самое интересное находится в линиях снизу видео. Использую базу данных из 10 000 визуальных категорий, которую Clarifai собрали за последние пол года, программное обеспечение компании следит за каждым кадром видео, автоматически описывая их такими словами, как «собака», «женщина», «глаза» и даже «милый».

image
Читать полностью »

Аннотация
Люди — это самые важные объекты слежения в системах видеонаблюдения. Тем не менее, слежение за человеком само по себе не дает достаточной информации об его мотивах, намерениях, желаниях и т.п. В этой работе мы представляем новую и надежную систему для автоматической оценки возраста с помощью технологий компьютерного зрения. Она использует глобальные особенности лица, полученные на основе комбинирования вейвлетов Габора и сохранение ортогональности локальных проекций Orthogonal Locality Preserving Projections, OLPP). Кроме того, система способна оценивать возраст по изображениям в реальном времени. Это означает, что предлагаемая система имеет больший потенциал по сравнению с другими полуавтоматическими системами. Результаты, полученные в процессе применения предлагаемого подхода, могут позволить получить более ясное понимание алгоритмов в области оценки возраста, необходимых для разработки приложений, актуальных для реального применения.
Ключевые слова: вейвлеты Габора, изображение лица, оценка возраста, метод опорных векторов (Support Vector Machine, SVM).
Читать полностью »

Посмотревшие этот сюжет, скорее всего согласятся с тем утверждением, что сенсорные устройства, пожалуй, как никому другому, сегодня нужны именно людям с вышеизложенными проблемами, так как, действительно, сильно облегчают их повседневную жизнь.

Этот видеоролик сегодня делается без особых проблем, связанных с монтажем и бесчисленными дублями. Здесь всё снято именно так, как это происходит в обычной жизни человека, работающего на Android с помощью программы TalkBack, обеспечивающей речевой доступ на всех современных Android-устройствах, начиная с версии 4.1.

Читатели, интересующиеся вопросом истории невизуальной доступности Android могут посетить сайт Tiflocomp. Если же говорить о существующих проблемах, связанных с невизуальной доступностью Android-устройств и программных продуктов, то здесь скорее дело в низкой заинтересованности разработчиков, в то время, как арсенал средств доступности, заложенных в самой операционной системе Android весьма существенен.
Читать полностью »

Достался мне тут довольно интересный проектик: на рентгенограммах сварных швов находить проволочные образцы стандартных размеров. Казалось бы, сколько уже было написано по поводу поиска паттернов на изображении, выработаны стандартные подходы и методики, но когда речь заходит о реальных задачах академические методы оказываются не настолько эффективны, как от них ожидается. Для затравочки, попробуйте найти здесь все семь проволочек:

image

Читать полностью »

Конкурс по ФП в августе: поиск подматриц в больших матрицахКак обычно по чётным месяцам года на первой неделе августа был проведён конкурс по функциональному программированию. На этот раз задачу подогнал нам один из корреспондентов, за что ему огроменное спасибо. А сама задача была довольно проста, а потому к конкурсу привлеклось значительное количество участников, небывалое с начала этого года (аж целых 14, да). В качестве использованных языков программирования был целый зоопарк, 14 участников использовали 12 языков (по алфавиту): C, C++, Clojure (победитель в командном зачёте, использовался дважды), D, Erlang, Go, Haskell, LISP, PHP, Python, Racket, Scala (другой победитель среди языков, тоже использовался дважды). К тому же, уже после окончания конкурса были присланы ещё два решения, и, как ни странно, оба на языке программирования Clojure. И это хорошо.

Победителей в этом конкурсе не выявлялось, поскольку всем участникам были обещаны призы. Многие из них свои призы получили (я не навязываю никому ничего, призы можно забрать, а можно и не забирать). Ну а я, как это обычно водится, предлагаю ознакомиться с отчётом по данному конкурсу.

Читать полностью »

Вместо введения

Продолжаю вести серию отчетов по исследовательской работе, которую проводил на протяжении нескольких месяцев, обучаясь в университете и в первые месяцы после защиты диплома. За все время работы многие элементы системы, которую разрабатывал, прошли переоценку и вектор работы в целом серьезно изменился. Тем интереснее было взглянуть на свой предыдущий опыт и опубликовать нигде не изданные ранее материалы с новыми замечаниями В данном отчете публикую материалы, почти 2-х летней давности со свежими дополнениями, которые надеюсь еще не потеряли свою актуальность.

Содержание:

1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:

На основе накопленного опыта в предыдущих исследовательских работах, осуществить пробную интеграцию видео-расширения в систему аудио-распознавания речи, провести протоколы испытаний, сделать выводы.

Задачи:

Рассмотреть подробно как можно интегрировать видео-расширение с программы распознавания речи, исследовать сам принцип аудио-видео синхронизации, а также осуществить пробную интеграцию разрабатываемого видео расширения в систему аудио распознавания речи, оценить разрабатываемое решение.

Введение

В ходе проведения предыдущих исследовательских работ были сделаны выводы целесообразности использования аудио-систем распознавания речи на базе открытого и закрытого исходного кода под наши цели и задачи. Как было нами определено: реализация своей собственной системы распознавания речи является очень сложной, трудоемкой и ресурсозатратной задачей, которую сложно выполнить в рамках данной работы. Поэтому нами было решено интегрировать представленную технологию видео-идентификации в системы распознавания речи, которые имеют для этого специальные возможности. Так как системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержания словника, то поэтому интеграция нашей видео-разработки в их работу следует считать более перспективным направлением, по сравнению с аудио системами распознавания речи на базе открытого исходного кода. Однако же необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом часто имеют сложную документацию для возможности интеграции сторонних решений в их работу с серьезными ограничениями использования системы на основе лицензионного соглашения или же это направление является платным, то есть необходимо покупать специальную лицензию на использование речевых технологий, представленных лицензиантом.

Для начала в качестве эксперимента было принято решение попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видео расширения. Замечу, что на время проведения испытаний у Google Speech API на базе браузера Chrome еще не было функции распознавания непрерывной речи Google, которая в то время уже встраивалась в технологию распознавания непрерывной речи Speech Input на базе ОС Android.

В качестве видео обработки за основу взято наше решение по анализу движения губ пользователя и алгоритмам фиксирования фазы движения точек в объекте интереса совместно с аудио обработкой. С тем, что в конечном итоге получилось можно ознакомиться ниже.
image
Читать полностью »

Технологии автоматического обнаружения и распознавания лица используются в ряде систем компьютерного зрения: биометрическая идентификация, человеко-машинный интерфейс, зрения роботов, компьютерная анимация, системы идентификации и детекционирования в фото-видео камерах и так далее. Основное отличие данных приложений между собой – это целевые классы, которые являются объектами распознавания. Целевыми классами в задачи распознавания могут являться: лицо с элементами перекрытий, изображение лица человека, живое лицо человека, мимика лица, черты лица, пол, раса, возраст, личность человека и другие характеристики. Для удобства выделим целевые классы в отдельные группы, которые при попытке построения автоматической системы обнаружения лица образуют сложности:

— Сильно варьирующийся внешний вид лица у разных людей;
— Даже относительно небольшое изменение ориентации лица относительно камеры влечет за собой серьезное изменение изображения лица;
— Возможное присутствие индивидуальных особенностей (усы, борода, очки, морщины и так далее), которые существенно осложняют автоматическое распознавание;
— Изменение выражения лица может сильно сказаться на том, как лицо выглядит на изображении;
— Условия съемки (освещение, цветовой баланс камеры, искажения изображения, привносимые оптикой системы, качество изображения) в значительной степени влияют на получающееся изображение лица[1].

Задача обнаружения на изображении является первым шагом, предобработкой в процессе решения задачи «более высокого уровня» (например узнавание лица, распознавание выражения лица и так далее). Существующие алгоритмы обнаружения лица можно разбить на две категории: методы эмпирического распознавания и методы моделирования изображения лица. К первой категории относятся методы, отталкивающиеся от опыта человека в распознавании лиц и делающие попытку формализовать и алгоритмизовать этот опыт. Вторая категория нацелена на инструментарий распознавания образов, рассматривая задачу обнаружения лица как частный случай общей задачи распознавания. По набору тренировочных изображений строится модель изображения лица, и задача обнаружения сводится к проверке входного изображения на удовлетворение полученной модели.

Читать полностью »

Библиотека компьютерного зрения CCV 0.6 с новым классификатором изображений

Для свободной кроссплатформенной библиотеке компьютерного зрения CCV разработан новый классификатор изображений, обученный в свёрточной нейроной сети. Впервые классификатор такого уровня и модели (детектор лиц, детектор автомобилей, детектор пешеходов) выпущены под свободной лицензией.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js