Рубрика «генерация изображений»

Запускаем Stable Diffusion на Raspberry PI Zero 2 (или на 260 МБ ОЗУ) - 1


Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ.Читать полностью »

Как работает ControlNet. Контролируемая генерация изображений - 1


Нейронные сети прошли долгий путь от генерации странных ЧБ-изображений до фантастических фотореалистичных сцен, которые не поддаются воображению. С помощью всего лишь короткой текстовой подсказки диффузионные нейросети могут создавать потрясающие изображения, неотличимые от обычных. Однако, какими бы впечатляющими ни были эти модели, в них отсутствует важнейший элемент — пользовательский контроль. Представьте, что вы можете указать точную форму, положение и позу объекта на изображении, которое вы хотите создать. Что ж, теперь это возможно благодаря новаторской технологии под названием ControlNet!
Читать полностью »

Вы, наверное, слышали про dalle-2, midjourney, stable diffusion? Слышали о моделях, которые по тексту генерируют картинку. Совсем недавно они продвинулись настолько, что художники протестуют, закидывая в стоки картинки с призывом запретить AI, а недавно, вообще, в суд подали! В этой статье будем разбираться, как такие модели работают. Начнем с азов и потихоньку накидаем деталей и техник генерации. Но будем избегать сложной математики – если хотите в нее погрузиться, то рекомендую эту статью (ссылка).

Читать полностью »

Многие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста.

Генерируем музыку с помощью Stable Diffusion - 1

Теперь ту же модель можно использовать для генерации музыки! Модель была дообучена на задаче генерации спектрограмм по входной строке и теперь появилась возможность делать следующее:

Читать полностью »
UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.

Рисуем вместе с CLIP Guided Diffusion HQ - 1


Во времена старого Баша мне запомнилась одна цитата:

kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?

Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать полностью »

В данной статье я покажу и расскажу, как можно сгенерировать аватарки как на Github.

Результат генерации для ника "test1"
Результат генерации для ника "test1"

Для начала нужно понять, как устроена аватарка с Github'а. На первый взгляд, это просто случайный набор закрашенных квадратов (далее, блоков) в удачном порядке на сером фоне.

Сколько квадратов в аватарке
Сколько квадратов в аватарке

Читать полностью »

Алгоритм коллапса волновой функции (Wavefunction Collapse Algorithm) учит компьютер импровизировать. На входе он получает архетипичные данные и создаёт процедурно генерируемые данные, похожие на исходные.

Доступное объяснение алгоритма коллапса волновой функции - 1

(Источник)

Чаще всего он используется для создания изображений, но может также строить города, скейтпарки и писать ужасные стихи.

Доступное объяснение алгоритма коллапса волновой функции - 2

(Источник)

Коллапс волновой функции — это очень независимо мыслящий алгоритм, не требующий практически никакой помощи или инструкций извне. Вам нужен только пример стиля, которого нужно достичь, а всё остальное он сделает сам. Несмотря на свою самодостаточность, он на удивление прост. Он не использует никаких нейронных сетей, случайных лесов или чего-то другого, похожего на машинное обучение. Если разобраться с идеей, он станет для вас очень понятным и интуитивным.

Большинство реализаций и объяснений коллапса волновой функции — это полная, оптимизированная по скорости версия алгоритма. Разумеется, все они важны и необходимы, но в них сложно разобраться с нуля. В этом посте я буду объяснять всё понятным я простым языком, сосредоточившись на версии Wavefunction с ограничениями, которую я назвал Even Simpler Tiled Model. Кроме того, я выложил пример реализации ESTM на Github. Код в нём неэффективный и медленный, но очень хорошо читаемый и подробно прокомментирован. Как только вы разберётесь в технологии, лежащей в основе ESTM, то станете ближе к пониманию более сложных версий алгоритма. Если хотите понять алгоритм коллапса волновой функции, то эта статья будет хорошим началом.
Читать полностью »

В МТИ создали модель ИИ, которая распознает и изменяет состав пиццы - 1

Исследователи Массачусетского технологического института нашли еще одно применение для технологий распознавания изображений. Разработанная ими модель PizzaGAN определяет набор ингредиентов в пицце по фотографии и вносит в нее коррективы, добавляя или убирая любые топпинги по запросу.
Читать полностью »

Разработка российской команды реалистично анимирует лица по одному кадру - 1

Новый проект от группы российских исследователей из Сколково знаменует очередной этап в развитии технологий распознавания и генерации лиц. Созданная ими нейросеть синтезирует динамичные изображения людей на базе любого числа доступных изображений, начиная с одного.
Читать полностью »

Нейросеть генерирует изображения блюд по рецептам их приготовления - 1
Сравнение настоящих фотографий (вверху), сгенерированных изображений с семантической регуляризацией (средний ряд) и без неё

Группа исследователей из Тель-Авивского университета разработала нейронную сеть, способную генерировать изображения блюд по их текстовым рецептам. Таким образом, домохозяйка может заранее посмотреть, что получится в итоге, если изменить тот или иной пункт рецепта: добавить новый ингридиент или убрать какой-то из существующих. В принципе, эта научная работа — хорошая идея для коммерческого приложения, тем более что исходный код программы опубликован в открытом доступе.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js