Рубрика «deep learning» - 10

Привет! Представляю вашему вниманию перевод статьи "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks" авторов Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He.

В данной публикации я хочу рассказать о своих экспериментах с архитектурой AttnGAN для генерации изображений из текстового описания. Эта архитектура уже упоминалась на Хабре после выхода оригинальной статьи в начале 2018 года, и меня заинтересовал вопрос – насколько сложно будет обучить такую модель самостоятельно?

Описание архитектуры

Для тех, кто не знаком с AttnGAN и классическим GAN, – вкратце опишу суть. Классический GAN состоит из минимум 2 нейронных сетей – генератора и дискриминатора. Задачей генератора является порождение некоторых данных (изображений, текста, аудио, видео и т.д), “похожих” на реальные данные из датасета. Задачей дискриминатора является оценка сгенерированных данных, попытка сравнить их с реальными и забраковать. Забракованный результат работы генератора стимулирует его порождать все лучший результат, чтобы “обмануть” дискриминатор, который, в свою очередь, учится все лучше распознавать подделки.

Модификаций GAN существует великое множество, и авторы AttnGAN подошли к вопросу архитектуры весьма изобретательно. Модель состоит из 9 нейросетей, тонко настроенных на взаимодействие. Выглядит это примерно так:
Читать полностью »

С чего все началось

Все началось с Эппл Маркета — я обнаружил, что у них есть программа, позволяющая определить спелость арбуза. Программа… странная. Чего стоит, хотя бы, предложение постучать по арбузу не костяшками пальцев, а… телефоном! Тем не менее, мне захотелось повторить это достижение на более привычной платформе Андроид.
Читать полностью »

Создаем свой датасет с пришельцами - 1

Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.

Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать полностью »

Привет! Представляю вашему вниманию перевод статьи «Learning 3D Face Morphable Model Out of 2D Images».

3DMM

Трёхмерная морфируемая модель лица (3D Morphable Model, далее 3DMM)  —  это статистическая модель структуры и текстуры лица, которая используются компьютерном зрении, компьютерной графике, при анализе человеческого поведения и в пластической хирургии.

Неповторимость каждой черты лица делает моделирование человеческого лица нетривиальной задачей. 3DMM создётся для получения модели лица в пространстве явных соответствий. Это означает поточечное соответствие между полученной моделью и другими моделями, позволяющими выполнять морфирование. Кроме того, в 3DMM должны быть отражены трансформации низкого уровня, такие как отличия мужского лица от женского, нейтрального выражения лица от улыбки.
Читать полностью »

В этой статье я бы хотел рассказать про некоторые приемы работы с данными при обучении модели. В частности, как натянуть сегментацию объектов на ббоксы, а также как обучить модель и получить разметку датасета, разметив всего несколько сэмплов.
Пицца аля-semi-supervised - 1
Читать полностью »

Привет!

Сегодня я хочу рассказать о второй части проекта сервиса для идентификации и классификации произведений искусства. Напомню, что мы решали две основные задачи:

  1. поиск картины в базе данных по фотографии, сделанной мобильным телефоном;
  2. определение стиля и жанра картины, которой нет в базе данных.

Сегодня мы рассмотрим применение сверточной нейронной сети для классификации изображений по стилю и жанру.

Глубокое обучение для определения стиля и жанра картин - 1

Поможем Даше разобраться в современном искусстве?

Читать полностью »

Весной этого года проходил знаменательный Retro Contest от OpenAI, который был посвящен обучению с подкреплением, meta learning и, конечно же, Sonic’у. Наша команда заняла 4 место из 900+ команд. Область обучения с подкрепление немного отличается от стандартного машинного обучения, а уж этот контест отличался от типичного соревнования по RL. За подробностями прошу под кат.

image


Читать полностью »

Image
Машинное обучение и нейросети становятся все более незаменимыми для многих компаний. Одна из основных проблем, с которыми они сталкиваются — деплой такого рода приложений. Я хочу показать показать практичный и удобный способ подобного деплоя, для которого не требуется быть специалистом в облачных технологиях и кластерах. Для этого мы будем использовать serverless инфраструктуру.

Читать полностью »

Привет! Сегодня я хочу рассказать о том, как глубокое обучение помогает нам лучше разобраться в искусстве. Статья разбита на части в соответствии с задачами, которые мы решали:

  1. поиск картины в базе данных по фотографии, сделанной мобильным телефоном;
  2. определение стиля и жанра картины, которой нет в базе данных.

Все это должно было стать частью сервиса БД Артхив и его мобильных приложений.

Задача идентификации картин состояла в том, чтобы по изображению, приходящему от мобильного приложения, найти в базе данных соответствующую картину, затратив на это менее одной секунды. Обработка целиком в мобильном устройстве была исключена на этапе предпроектного исследования. Кроме того, оказалось, что невозможно трудно гарантированно выполнить на мобильном устройстве отделение картины от фона в реальных условиях съемки. Поэтому мы решили, что наш сервис будет принимать на вход фотографию с мобильного телефона целиком, со всеми искажениями, шумами и возможным частичным перекрытием.

Глубокое обучение для идентификации картин - 1

Поможем Даше найти эти картины в базе из более чем 200 000 изображений?

Читать полностью »

Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях - 1

Времена, когда одной из самых актуальных задач компьютерного зрения была способность отличать фотографии собак от фотографий кошек, уже остались в прошлом. На данный момент нейронные сети способны выполнять куда более сложные и интересные задания по обработке изображений. В частности, сеть с архитектурой Mask R-CNN позволяет выделять на фотографиях контуры («маски») экземпляров разных объектов, даже если таких экземпляров несколько, они имеют различный размер и частично перекрываются. Сеть так же способна к распознаванию поз людей на изображении.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js