Рубрика «GAN»

В прошлом месяце на NVIDIA GTC 2019 компания NVIDIA представила новое приложение, которое превращает нарисованные пользователем простые цветные шарики в великолепные фотореалистичные изображения.

Приложение построено на технологии генеративно-состязательных сетей (GAN), в основе которой лежит глубинное обучение. Сама NVIDIA называет его GauGAN — это каламбур-отсылка к художнику Полу Гогену. В основе функциональности GauGAN лежит новый алгоритм SPADE.

В этой статье я объясню, как работает этот инженерный шедевр. И чтобы привлечь как можно больше заинтересованных читателей, я постараюсь дать детализированное описание того, как работают свёрточные нейронные сети. Поскольку SPADE — это генеративно-состязательная сеть, я расскажу подробнее и о них. Но если вы уже знакомы с эти термином, вы можете сразу перейти к разделу «Image-to-image трансляция».

Генерация изображений

Давайте начнем разбираться: в большинстве современных приложений глубинного обучения используется нейронный дискриминантный тип (дискриминатор), а SPADE — это генеративная нейронная сеть (генератор).
Читать полностью »

Генеративно-состязательные сети (ГСС) [Generative Adversarial Networks, GAN] – обладающий интересными возможностями класс глубоких генеративных моделей. Их основная идея – обучение двух нейросетей, генератора, который обучается синтезу данных (к примеру, изображений), и дискриминатора, обучающегося тому, как отличать реальные данных от тех, что синтезировал генератор. Этот подход успешно использовался для высококачественного синтеза изображений, улучшения сжатия изображений, и прочего.
Читать полностью »

Графический редактор GANpaint рисует объектами и демонстрирует возможности GAN - 1


Одна из кистей удаляет/добавляет деревья, другая — людей и т. д.

Генеративно-состязательные сети (GAN) создают потрясающе реалистичные изображения, часто неотличимые от реальных. С момента изобретения таких сетей в 2014 году в этой области проведено много исследований и создан ряд приложений, в том числе для манипуляции изображениями и прогнозирования видео. Разработано несколько вариантов GAN, и эксперименты продолжаются.

Несмотря на этот огромный успех, по-прежнему остаются многие вопросы. Непонятно, в чём конкретно причины ужасно нереалистичных артефактов, какие минимальные знания нужны для генерации конкретных объектов, почему один вариант GAN работает лучше другого, какие фундаментальные различия закодированы в их весах? Чтобы лучше понять внутреннюю работу GAN, исследователи из Массачусетского технологического института, MIT-IBM Watson AI и подразделения IBM Research разработали фреймворк GANDissection и программу GANpaint — графический редактор на генеративно-состязательной сети.
Читать полностью »

С 30 ноября по 2 декабря в Москве прошел PicsArt AI hackathon c призовым фондом — 100,000$. Основной задачей было сделать AI решение для обработки фото или видео, которое можно будет использовать в приложение PicsArt. Коллега по работе(на тот момент) Артур Кузин предложил поучаствовать, заинтересовав меня идеей — анонимизация личных фотографий пользователей с сохранением деталей(мимики и т.д). Также Артур позвал Илью Кибардина — студента МФТИ (кому-то же нужно было писать код). Название родилось очень быстро: DeepAnon.

Как мы не выиграли хакатон - 1

Это будет рассказ про наше решение, его деградацию развитие, хакатон, и как не надо подстраиваться под жюри.

Читать полностью »

В 2014 году исследователь в области машинного обучения Ян Гудфеллоу выдвинул идею генеративных состязательных сетей или GAN. «Генеративность» состоит в том, что результатом их работы являются изображения, а не оценка ввода (типа «хот-дог или нет»), а «состязательность» — в том, что две нейросети играют в кошки-мышки, как федералы с фальшивомонетчиками: одна нейросеть пытается обмануть другую, создавая реалистичные картинки, а вторая старается отличить фейк.

Первые изображения GAN было легко идентифицировать. Посмотрите на эти лица 2014 года.

На чём прокалывается ИИ при генерации человеческих лиц - 1
«Обучение без учителя представлению с глубокими свёрточными генеративными состязательными сетями» (2014), Рэдфорд и др. Также известны как DCGAN
Читать полностью »

Контролируемый синтез и редактирование изображений с использованием новой модели TL-GAN

Генерация произвольных реалистичных лиц с помощью ИИ - 1
Пример контролируемого синтеза в моей модели TL-GAN (transparent latent-space GAN, генеративно-состязательная сеть с прозрачным скрытым пространством)

Весь код и онлайн-демо доступны на странице проекта.
Читать полностью »

Сгенерированная нейросетью картина ушла с молотка за $432 500 - 1

«Эдмонд де Белами, из семьи де Белами. Состязательная нейронная сеть, печать на холсте, 2018. Подписана функцией потерь модели GAN чернилами издателем, из серии одиннадцати уникальных изображений, опубликованных Obvious Art, Париж, в оригинальной позолоченной деревянной раме». — таково описание лота 363, который вчера продан на аукционе «Сотбис» за $432 500.
Читать полностью »

Привет! Представляю вашему вниманию перевод статьи "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks" авторов Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He.

В данной публикации я хочу рассказать о своих экспериментах с архитектурой AttnGAN для генерации изображений из текстового описания. Эта архитектура уже упоминалась на Хабре после выхода оригинальной статьи в начале 2018 года, и меня заинтересовал вопрос – насколько сложно будет обучить такую модель самостоятельно?

Описание архитектуры

Для тех, кто не знаком с AttnGAN и классическим GAN, – вкратце опишу суть. Классический GAN состоит из минимум 2 нейронных сетей – генератора и дискриминатора. Задачей генератора является порождение некоторых данных (изображений, текста, аудио, видео и т.д), “похожих” на реальные данные из датасета. Задачей дискриминатора является оценка сгенерированных данных, попытка сравнить их с реальными и забраковать. Забракованный результат работы генератора стимулирует его порождать все лучший результат, чтобы “обмануть” дискриминатор, который, в свою очередь, учится все лучше распознавать подделки.

Модификаций GAN существует великое множество, и авторы AttnGAN подошли к вопросу архитектуры весьма изобретательно. Модель состоит из 9 нейросетей, тонко настроенных на взаимодействие. Выглядит это примерно так:
Читать полностью »

Привет! Представляю вашему вниманию перевод статьи «Facial Surface and Texture Synthesis via GAN».

Когда у исследователей имеется недостаток реальных данных, зачастую они прибегают к аугментации данных, как способу расширить имеющийся датасет. Идея состоит в том, чтобы модифицировать имеющийся тренировочный датасет таким образом, чтобы оставить семантические свойства нетронутыми. Не такая уж тривиальная задача, если речь идет о человеческих лицах.
Читать полностью »

Когда-либо слышали о «deepfakes»? ИИ, который накладывает лицо одного человека на тело другого, использовали для замены Харрисона Форда на Николаса Кейджа в бесчисленных видеоклипах, а также и для более гнусных целей: знаменитости без их ведома появились в порно и пропаганде. Теперь, к лучшему или худшему, исследователи из Университета Carnegie Mellon разработали новую, более мощную и универсальную систему.

Читать полностью »