- PVSM.RU - https://www.pvsm.ru -
Компания Nvidia представила новое решение в сфере искусственного интеллекта — нейросеть Video LDM, которая позволяет генерировать видеоролики по текстовому описанию, причём в высоком разрешении. В проекте принимают участие специалисты Nvidia и разработчики из Корнеллского университета.
Отмечается, что нейросеть создаёт ролики с разрешением до 2048×1280 пикселей и частотой в 24 кадра. У ИИ-модели есть 4,1 млрд параметров, 2,7 млрд из них использовали для видеороликов, по которым «тренировали» нейросеть.
Используемый в нейросети механизм Latent Diffusion Models позволяет обходиться без мощного и дорого аппаратного обеспечения, а для работы используется движок Stable Diffusion. Таким образом, Video LDM генерирует ролики покадрово.
Помимо этого, система умеет генерировать видео сцен вождения с разрешением 1024 × 512 пикселей и длительность до 5 минут.
На сайте Nvidia есть целый ряд видео [2], которые показывают возможности нового ИИ, есть короткие и более длинные ролики. При этом публичной версии Video LDM пока нет, также неясно, когда она появится в общем доступе. Пока что это лишь исследовательский проект, а не коммерческий.
Полноценная презентация ожидается в рамках Конференции по машинному зрению и распознаванию образов, она пройдёт 18–22 июня в Ванкувере, Канада.
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/384268
Ссылки в тексте:
[1] Image: #
[2] целый ряд видео: https://www.ixbt.com/click/?c=53616c7465645f5f328724e42fdf835373ce975a1c32f3bcad4d1b5012a07131603adb22e0cf7f7879eb6748f9444e20aa8b27832ffab44288637840e29986b9b5093950709d27a629c427c1cfd5dfdd61d5102de35f15955d0a96db8ffcf5ede22b6193a50bbe046d8593f9daaa6fc0&h=e7b39d6d6f4ecd11ae7af5700e6987aba11a8041
[3] Источник: https://www.ixbt.com/news/2023/04/21/videokamery-bolshe-ne-nuzhny-novaja-nejroset-nvidia-generiruet-videoroliki-po-tekstovym-opisanijam-i-v-vysokom.html
Нажмите здесь для печати.