Нейросеть научилась рисовать сложные сцены по текстовому описанию

Нейросеть научилась рисовать сложные сцены по текстовому описанию - 1

Исследовательская группа Microsoft Research представила ^[1] генеративно-состязательную нейросеть, которая способна генерировать изображения с несколькими объектами на основе текстового описания. В отличие от более ранних подобных алгоритмов text-to-image, способных воспроизводить изображения только базовых объектов, эта нейросеть может справляться со сложными описаниями более качественно.

Сложность создания подобного алгоритма заключалась в том, что, во-первых, ранее бот был не способен в хорошем качестве воссоздавать все базовые объекты по их описаниям, и, во-вторых, не мог проанализировать то, как несколько объектов могут относиться друг к другу в рамках одной композиции. К примеру, чтобы создать изображение по описанию «Женщина в шлеме сидит на лошади», нейросеть должна была семантически «понять», как каждый из объектов относится друг к другу. Эти проблемы удалось решить, обучив нейросеть на основе открытого дата-сета COCO ^[2], содержащего разметку и данные сегментации для более 1,5 млн объектов.

Microsoft научила нейросеть рисовать сложные сцены по текстовому описанию

В основе алгоритма лежит объектно-ориентированная генеративно-состязательная нейросеть ObjGAN (Object-driven Attentive Generative Adversarial Newtorks). Она анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. В отличие от обычной генеративно-состязательной сети, состоящей из одного генератора, который создает изображения, и одного дискриминатора, который оценивает качество сгенерированных изображений, ObjGAN содержит два различных дискриминатора. Один анализирует, насколько реалистичен каждый из воспроизведенных объектов и насколько он соответствует имеющемуся описанию. Второй определяет, насколько вся композиция реалистична и соотносится с текстом.

Предшественником алгоритма ObjGAN стал AttnGAN, также разработанный ^[3] исследователями Microsoft. Он способен генерировать изображения объектов по более простым текстовым описаниям. Технология преобразования текста в изображения может применяться для помощи дизайнерам и художникам в создании эскизов.

Алгоритм ObjGAN находится ^[4] в открытом доступе на GitHub.

Больше технических подробностей. ^[5]

Автор: msgeek

Источник ^[6]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/open-source/321756

Ссылки в тексте:

[1] представила: https://arxiv.org/abs/1902.10740

[2] дата-сета COCO: http://cocodataset.org/#overview

[3] разработанный: https://news.microsoft.com/ru-ru/microsoft-predstavila-bot-hudozhnika-na-osnove-ii/

[4] находится: https://github.com/jamesli1618/Obj-GANhttps:/github.com/jamesli1618/Obj-GAN

[5] Больше технических подробностей.: https://habr.com/ru/company/microsoft/blog/457200/

[6] Источник: https://habr.com/ru/post/457198/?utm_source=habrahabr&utm_medium=rss&utm_campaign=457198

Нажмите здесь для печати.