Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.
Рубрика «diffusion»
K-VAE токенизатор от Сбера
2025-11-14 в 13:27, admin, рубрики: diffusion, VAE, генеративные модели, сжатие видео, сжатие изображенийЧасть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть
2025-07-02 в 16:11, admin, рубрики: diffusion, stable diffusion, transformer, VAEОбо мне
Привет, меня зовут Василий Техин. В первой статье мы разобрали ResNet, во второй — ViT. Теперь погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3.
Пролог: От распознавания к созданию
Представьте нейросеть как художника. Раньше она только анализировала картины ("Это Ван Гог!"). Теперь она создаёт шедевры в стиле Ван Гога и не только!
Пишем свою Diffusion модель с нуля
2024-11-21 в 16:41, admin, рубрики: diffusion, machine learning, stablediffusion, нейросетиВсем привет, думаю у вас на слуху разного рода Diffusion модели последние 2 года. На его основе генерируют реалистичные изображения и видео, поэтому мне захотелось копнуть поглубже и узнать какова кроличья нора...
Меня зовут Юра, я - разработчик, фаундер и временами ML энтузиаст. Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал. На гифке изображены примеры итоговых картинок на моей финальной модели.
Если вам тоже интересно, милости прошу под кат.
Обучение модели Stable Diffusion текстовой инверсии с помощью diffusers
2022-09-18 в 12:14, admin, рубрики: colab, colaboratory, diffusion, github, python, stable diffusion, будущее здесь, графический дизайн, искусственный интеллект, текстовая инверсияЛистая интернет на наличие интересных технологий в области нейронных сетей и различного искусства,я наткнулся на пост в Твиттере, в котором Suraj Patil объявил о возможности обучения модели Stable Diffusion текстовой инверсии используя всего 3-5 изображений.
