Nvidia научила нейросеть замедлять видео

В нашей жизни может быть много моментов, которые нужно записать на камеру в замедленном режиме – первые шаги ребенка, первая поездка на море, трюк любимой собаки. Современный смартфон позволяет снимать с частотой 240 кадров в секунду или выше, но постоянно в таком режиме записывать не получится — памяти не хватит, и батарея сядет быстро. Созданная Nvidia нейросеть работает с уже отснятыми видео, превращая их в замедленные.

Исследователи из Nvidia создали систему на основе глубинного обучения для переработки видеороликов с частотой 30 кадров в секунду в замедленные видео. Они использовали библиотеку глубинного обучения PyTorch и графические процессоры Nvidia Tesla V100 GPUs. Систему тренировали с помощью 11 000 видеороликов повседневной и спортивной активности, снятых с частотой в 240 кадров в секунду. Благодаря этому она стала предсказывать промежуточные кадры. Чтобы проверить точность технологии, исследователи использовали отдельную базу данных с видео.

Технология позволяет делать видео гораздо более плавными и менее размытыми, чем в случае обычного замедления скорости. Частота кадров повышается до 480 в секунду. Для демонстрации результатов команда сравнила замедленные ролики, снятые видеоблогерами The Slo Mo Guys ^[1], с теми же видео, замедленными новым способом.

Первая нейронная сеть оценивает видеопоток — структуру движения, объектов, поверхностей и рёбер в сцене. Делает она это и вперёд по временной шкале, и в обратной последовательности для двух входных кадров. Затем система предсказывает, как пиксели будут перемещаться из одного кадра в следующий, создавая 2D-векторы этих перемещений.

Затем работает вторая нейросеть, которая предсказывает карту видимости – исключает те пиксели, которые должны быть перекрыты объектами, чтобы убрать артефакты. И система с помощью всех полученных данных искажает новые кадры между двумя выходными, чтобы обеспечить плавность перехода.

На видео можно сравнить результаты. Конечно, есть отличия между искусственно созданными замедленными видео и оригиналом, отснятым изначально с высокой частотой кадров. Это особенно заметно в сравнении с прыжком на надувной шар в бассейн от Slo Mo Guys на 54 секунде. Но если бы сравнивать было не с чем — отличить настоящее видео от «поддельного» было бы сложно.

Команда пока не знает, как коммерциализировать свою разработку. По их мнению, она ещё далеко до идеала и требует много ресурсов, в том числе временных. Вероятно, даже если такая технология и будет реализована в качестве продукта, она не будет запускаться на устройстве пользователя — вычисления произойдут в облаке.

Nvidia научила нейросеть замедлять видео - 1

В апреле специалисты из Nvidia показали ^[2] другую технологию, добавляющую новые фрагменты к изображению – реконструкцию фотографий. Метод позволяет убрать предмет с изображения, после чего система заменит пустой фрагмент на реалистичный фон, а также добавить глаза и другие части лица после удаления их с фото.

В процессе подготовки к тренировке нейросети исследователи создали более 55 тысяч масок из рандомных полос и отверстий разных размеров. Ещё 25 тысяч новых масок использовали для проверки точности результатов после обучения.

В процессе тренировки маски накладывались на изображения, чтобы помочь нейросети изучить, как нужно реконструировать недостающие пиксели.

Научная работа Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation опубликована на сайте препринтов arXiv.org: arXiv:1712.00080 ^[3].

Автор: ivansychev

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/iskusstvenny-j-intellekt/283822

Ссылки в тексте:

[1] The Slo Mo Guys: https://www.youtube.com/user/theslowmoguys

[2] показали: https://news.developer.nvidia.com/new-ai-imaging-technique-reconstructs-photos-with-realistic-results

[3] arXiv:1712.00080: https://arxiv.org/abs/1712.00080

[4] Источник: https://habr.com/post/414953/?utm_campaign=414953

Нажмите здесь для печати.