- PVSM.RU - https://www.pvsm.ru -

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 1

Недавно я писал инструкцию-обзор [1] на четвертую версию алгоритма MidJourney. Спустя всего два месяца нам предложили альфа-версию пятой версии алгоритма. В v5 предлагают большую реалистичность и более тонкую настройку. Зачем откладывать удовольствие, давайте взглянем!

Дисклеймер: данная статья написана по первой альфа-версии алгоритма v5. В процессе разработки стиль и доступная функциональность может меняться.

Используйте навигацию, если не хотите читать текст полностью:

Сухие факты [2]
Эксперименты [3]
Генерационные челленджи [4]
Заключение [5]

Сухие факты


Сперва пробежимся по анонсу [6] от разработчиков MJ. Вот что поменялось:

  • Расширен список стилей, в которых может рисовать нейронная сеть. Нейронная сеть более чутко относится к запросу.
  • Увеличено разрешение генерируемых изображений. Разрешение изображений v5 равно разрешению увеличенных (upscaled) изображений v4.
  • Больше деталей и меньше текста.
  • Добавлена поддержка параметра --tile, генерирующего изображения в виде тайлов с бесшовным переходом.
  • Добавлена поддержка не квадратного соотношения сторон через аргумент --ar.
  • Добавлена поддержка весов для изображений через аргумент --iw.
  • Увеличение изображений (upscale) на данный момент отключено.

Разработчики MJ отдельно упоминают, что v5 имеет меньше «собственного мнения», поэтому требует более длинных и обстоятельных описаний, а на коротких запросах могут возникнуть проблемы.

Хотя в анонсе разработчиков указано, что производительность повышена, картинки на пятой версии алгоритма генерируются в два раза дольше, то есть примерно минуту. Вероятно, это связано с высоким разрешением картинки.

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 2

Эксперименты


Начнем с простого запроса, который сравнивал v3 и v4 в прошлой статье.

Запрос: stars world time

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 3

Слева направо: третья [7], четвертая [8], пятая версии [9] (здесь и далее по ссылкам — фулсайзы картинок).

Изображения v5 кажутся более сдержанными. К сожалению, сдержанность пятой версии алгоритма поставила крест на легкой генерации красочных неоновых котов, которые мне так полюбились.

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 4

Слева: запрос — neon cat [10]. Справа: запрос — painted neon cat with green light [11].

Сдержанность — это достойная цена за повышенный реализм в генерации.

Запрос: woman portrait soft sunset light --seed 2131932819

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 5

Слева — четвертая версия [12] MJ. Справа — пятая [13].

Провел опрос в своем Telegram-канале [14], какая генерация нравится моим подписчикам больше. Подавляющее большинство голосов — за более реалистичную версию. А какая нравится вам? Пишите в комментариях. И подписывайтесь на мое канал — рассказываю там о своих экспериментах.

Запрос: circuit of processor inside

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 6

Слева — четвертая версия [15]. Справа — пятая [16].

На этом хватит случайных изображений, посмотрим, как MJv5 поборолась с некоторыми особенностями своей предшественницы.

Генерационные челленджи

Метки «качества» и количества

Ранее я аргументированно убеждал, что «магические» слова вроде «beautiful» ничего не решают и минимально влияют на итоговое изображение. Отныне это не так. Новая версия более чутко воспринимает написанное, и теперь эти магические слова действительно влияют.

Основной запрос: woman portrait --seed 2131932819

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 7

Слева направо: без дополнительных слов [17]; beautiful [18]; beautiful 8k octane unreal realistic [19].

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 8

Слева направо (генерации в v5): без дополнительных слов; [20] beautiful [21]; beautiful 8k octane unreal realistic [22].

Наличие или отсутствие дополнительных слов существенно меняет визуальный стиль итогового изображения. Так, наличие в запросе слова «portrait» может быть трактовано как запрос художественного стиля, а «octane» генерирует как будто скриншоты из ААА-игры.

Запрос: nine cats

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 9

Слева — четвертая версия [22]. Справа — пятая [23].

С числительными новая версия алгоритма справляется лучше, хотя все еще затрудняется нарисовать правильное количество объектов. Но зато больше нет насмехающейся цифры 9 на шестом коте.

Нейросети не умеют рисовать конечности

Запрос: beautiful woman hand with five fingers

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 10

Слева — четвертая версия [24]. Справа — пятая [25].

Запрос: beautiful woman hand with ring

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 11

Слева — четвертая версия [26]. Справа — пятая [27].

MJv5 все так же ошибается при генерации человеческих рук, но итоговое изображение не имеет пугающих элементов. Можно ли считать это революцией в генерации изображений рук? Нет, но прогресс, определенно, есть.

Генерация широкоформатных изображений

На момент написания прошлой статьи четвертая версия алгоритма умела генерировать только квадратные изображения. Спустя месяц добавили поддержку соотношений 1:2 и 2:1, но я, как пользователь монитора с соотношением сторон 21:9 и телефона с соотношением сторон экрана 9:21, недоволен невозможностью генерировать обои на рабочий стол.

Запрос: nature landscape --ar 21:9

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 12

Сверху — третья версия [28]. Снизу — пятая [29].

Запрос: cyberpunk city --v 5 --ar 21:9

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 13

Сверху — третья версия [30]. Снизу — пятая [31].

Третье поколение алгоритма в некоторых случаях генерирует вытянутую картинку как смесь из нескольких квадратных Это заметно на изображении из запроса cyberpunk city, где есть некоторая симметрия относительно центральной вертикали, а в ландшафте видно две возвышенности, также симметрично расположенные.

Криповый, но более показательный пример

Запрос: beautiful woman portrait --ar 32:9

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 14

Сверху — третья версия [32]. Снизу — пятая [33].

Пятая версия алгоритма избавилась от этого недостатка, но появился новый: иногда при генерации появляются черные полосы, которые «корректируют» изображение до другого соотношения сторон.

Запрос: city landscape --ar 50:9 --v 5

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 15

Фулсайз. [34]

К слову, v3 неявно ограничивала вытянутость картинки и при генерации 32:9 полученный результат был похож скорее на 21:9. MJv5 же способна генерировать даже 100:9. Осталось найти такой монитор.

Генерация тайлов

Запрос: stone texture --tile --v 5

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков - 16

Фулсайз [35].

В MidJourney v5 добавили экспериментальную опцию: создание тайлов. Тайлы — это картинки, которыми можно бесшовно заполнить плоскость. Такой режим подойдет при разработке, например, игр, для быстрого создания повторяющихся текстур. Ну и набор ресурсов (Texture Pack) для Minecraft.

Возможно, эти тексты тоже вас заинтересуют:

Больше одноплатников, производительных и специализированных: 5 нужных многим моделей, которые появились в марте [36]
Конфигуратор и PostgreSQL: что под капотом 1С PaaS-решения для организации работы в облаке [37]
Как работают объектные хранилища: OpenStack Swift [38]

Заключение


Пока весь мир следит за текстовыми моделями, прогресс txt2img-моделей не стоит на месте. Мне очень грустно, что пятое поколение алгоритма не дружит с неоновыми котами. Тем не менее, даже в альфа-версии MidJourney v5 предлагает что-то новое и вновь погружает в магию генераций изображений, что не может не радовать.

Удалось ли вам уже протестировать пятую версию? Какие впечатления от изменений? Пишите в комментариях!

Автор: Владимир

Источник [39]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/novaya-versiya/383494

Ссылки в тексте:

[1] инструкцию-обзор: https://habr.com/ru/company/selectel/blog/709944/

[2] Сухие факты: #1

[3] Эксперименты: #2

[4] Генерационные челленджи : #3

[5] Заключение: #4

[6] анонсу: https://discord.com/channels/662267976984297473/952771221915840552/1085681105539174400

[7] третья: https://habrastorage.org/webt/ul/up/-b/ulup-bgem2xwxskwwpxkh2sgpna.png

[8] четвертая: https://habrastorage.org/webt/he/da/j0/hedaj0ib_uj9hmlzwha4oy65phg.png

[9] пятая версии: http://cdn.discordapp.com/attachments/1001883306146660443/1085857234698903602/f1remoon_stars_world_time_65af65cd-db46-45aa-b56a-03fd79d37537.png

[10] neon cat: https://cdn.discordapp.com/attachments/1001883306146660443/1085842579742003200/f1remoon_neon_cat_24d32f89-254b-4416-9657-503aab3453d6.png

[11] painted neon cat with green light: https://cdn.discordapp.com/attachments/1001883306146660443/1085859861755088978/f1remoon_painted_neon_cat_with_green_light_a5a61ca5-865e-4b88-a982-0f1d6c557f28.png

[12] четвертая версия: https://habrastorage.org/webt/rx/xr/hu/rxxrhur3w48xsl4jab9dvhphhl4.png

[13] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085867028612661298/f1remoon_woman_portrait_soft_sunset_light_59094fa7-2c3a-423f-a63f-d8d57172b3c4.png

[14] Telegram-канале: https://t.me/+VzpLr5pam-MxODEy

[15] четвертая версия: https://cdn.discordapp.com/attachments/1001883306146660443/1085874552732647424/f1remoon_circuit_of_processor_inside_eb1f1f15-5c3d-4483-9c7f-1611a4e68df4.png

[16] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085874610689548298/f1remoon_circuit_of_processor_inside_d322d0d1-c2a4-4c07-a98f-39b53706f96d.webp

[17] без дополнительных слов: https://habrastorage.org/webt/yw/ps/nk/ywpsnkp5a9yfr9djtudutprixj0.png

[18] beautiful: https://habrastorage.org/webt/5x/v0/nn/5xv0nnyexsvrzpm5irhacpjskdg.png

[19] beautiful 8k octane unreal realistic: https://habrastorage.org/webt/rr/ee/jr/rreejrsxxi8ow3im8ljajsqcyyg.png

[20] без дополнительных слов;: https://cdn.discordapp.com/attachments/1001883306146660443/1085875976199749642/f1remoon_woman_portrait_d3aa6c76-0daf-4ca2-affd-b9b047b7fa76.png

[21] beautiful: https://cdn.discordapp.com/attachments/1001883306146660443/1085876041727352872/f1remoon_woman_portrait_beautiful_f41e8146-0e1c-4d12-97c0-a292bd24919f.png

[22] beautiful 8k octane unreal realistic: https://cdn.discordapp.com/attachments/1001883306146660443/1085876110455210074/f1remoon_woman_portrait_beautiful_8k_octane_unreal_realistic_77818d92-44cb-46b1-8120-aa38d3dd2aea.png

[23] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085891838378004510/f1remoon_nine_cats_b23269cb-40b2-423c-9fa6-1666e7d9171f.png

[24] четвертая версия: https://cdn.discordapp.com/attachments/1001883306146660443/1085894130518982728/f1remoon_beautiful_woman_hand_with_five_fingers_03d46d87-3986-4fa0-8e73-35a683fa6c24.png

[25] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085893334398156900/f1remoon_beautiful_woman_hand_with_five_fingers_bda25b24-5f0b-429c-89d4-75bf01421c79.png

[26] четвертая версия: https://hsto.org/webt/ni/6g/e3/ni6ge3uxp7dsj2wahybnmrsjigu.png

[27] пятая: https://media.discordapp.net/attachments/1001883306146660443/1085880111930298378/f1remoon_beautiful_woman_hand_with_ring_1b707d0b-ab13-4284-b69f-b59eb15e762e.png

[28] третья версия: https://cdn.discordapp.com/attachments/1001883306146660443/1061326713562349698/f1remoon_nature_landscape_7fdc0fae-5436-4c00-b404-71ca895c0d4c.png

[29] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085903261321670656/f1remoon_nature_landscape_ece91caf-1322-4aaa-931f-f3c28de36faa.png

[30] третья версия: https://media.discordapp.net/attachments/1001883306146660443/1061329793972437083/f1remoon_cyberpunk_city_0cc16059-c7ca-44dd-a943-3dc8d63ffbcb.png

[31] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085902976209649684/f1remoon_cyberpunk_city_e8beee71-490a-4e84-ae9d-5530e7151a81.png

[32] третья версия: https://cdn.discordapp.com/attachments/1001883306146660443/1085905255256031242/f1remoon_beautiful_woman_portrait_1a71f2b0-49ab-4f05-863c-731b2abcf699.png

[33] пятая: https://cdn.discordapp.com/attachments/1001883306146660443/1085905084514316348/f1remoon_beautiful_woman_portrait_d7ae6c00-ab40-43b0-911b-74e45c1a644d.png

[34] Фулсайз.: https://cdn.discordapp.com/attachments/1001883306146660443/1085906688789450882/f1remoon_city_landscape_1a77a29a-abc6-406c-aab9-e025aebc8ba5.png

[35] Фулсайз: https://cdn.discordapp.com/attachments/1001883306146660443/1085929297241444444/f1remoon_stone_texture_ade60122-9475-43f7-8b82-2b2d99e440af.webp

[36] Больше одноплатников, производительных и специализированных: 5 нужных многим моделей, которые появились в марте: https://habr.com/ru/company/selectel/blog/721530

[37] Конфигуратор и PostgreSQL: что под капотом 1С PaaS-решения для организации работы в облаке: https://habr.com/ru/company/selectel/blog/722536

[38] Как работают объектные хранилища: OpenStack Swift: https://habr.com/ru/company/selectel/blog/720712

[39] Источник: https://habr.com/ru/post/722900/?utm_source=habrahabr&utm_medium=rss&utm_campaign=722900