- PVSM.RU - https://www.pvsm.ru -

Алгоритм DeepStereo склеивает снимки Google Street View в гладкое видео

Исследователи компании Google Джонн Флинн, Айван Нюландер, Джеймс Филбин и Ной Снейвли создали алгоритм, который способен комбинировать снимки из сервиса обзора панорамных видов улиц Street View в гладкие видеоролики с едва заметными артефактами. Алгоритм получил название DeepStereo, пример его работы представлен выше. Вероятное использование созданной технологии включает создание простых анимаций, обработку изображений, кино и виртуальную реальность.

Не всегда возможно адекватно оценить некоторое место только по картам или цифровым снимкам. Посмотреть на улицу с высоты чуть выше человеческого роста помогают сервисы по типу Google Street View. Но это склеенные в панораму фотографии, а не видеоролики.

Если нужно создать анимацию движения вперёд из отдельных снимков, то решение просто проиграть последовательность изображений не подойдёт — оно получится слишком быстрым, поскольку картинки будут меняться с частотой как минимум 24 кадра в секунду. В случае проезда по широкой ровной дороге или шоссе можно создать неплохую анимацию в стиле замедленной съёмки. Но в Google Street View есть панорамы музеев и витиеватых улочек — таймлапс из быстрой смены кадров здесь не получится. Нужны недостающие изображения между снимками. Этим и занимается созданный алгоритм.

Команда исследователей использовала обширные знания компании в обучении алгоритма. На входе имеется набор изображений с некоторых точек, а целью является создание новых кадров с других точек. Точное решение этой задачи требует построения 3D-модели окружения, что чаще всего невозможно из-за преград. Задача не нова. Некоторые предыдущие методы обладают проблемами, которые приводят к появлению разрывов возле барьеров, алиасингу и размытию. Особенные сложности вызывают деревья и другие объекты, отдельные элементы которых могут закрывать вид.

Алгоритм DeepStereo склеивает снимки Google Street View в гладкое видео - 1 [1]

Новый метод команды Флинна использует обучение алгоритма компьютерного зрения для того, чтобы он мог понять, какие объекты должны быть в недостающих кадрах. Для обучения использовались наборы изображений с двигающегося автомобиля. Исследователи заявляют, что объем базы для обучения составил 100 тысяч наборов изображений.

Затем проводилось тестирование с использованием последовательностей из трёх снимков из Google Street View. Алгоритм заставляли обработать два крайних изображения и представить вариант промежуточного. Сравнение с оригиналом позволяло оценить работу.

Конечный результат DeepStereo команда называет правдоподобным. С первого взгляда его не так легко отличить от реальной фотографии. Заметные артефакты включают лёгкую потерю разрешения и пропадание тонких структур на переднем плане. Объекты со сложной структурой, которая перекрывает свои собственные детали, могут появляться в размытом виде. Алгоритм также не в состоянии создать поверхности, которых нет в оригинальных снимках. Перемещающиеся объекты (пешеходы, машины) намеренно размыты, чтобы создать эффект движения.

Для рендеринга требуется внушительная вычислительная мощь. Для создания лишь одного изображения разрешением 512×512 пикселей требуется примерно 12 минут работы многоядерной системы с неназванными техническими характеристиками. Создание изображений большего разрешения требует слишком много оперативной памяти. Исследователи выражают надежды по оптимизации алгоритма с возможностью сокращения времени рендеринга до нескольких минут или даже секунд при использовании процессоров видеокарт. В перспективе при значительной доработке работа алгоритма на GPU возможна даже в реальном времени.

По материалам текста исследования [2] и MIT Technology Review [3]. arXiv:1506.06825 [4] [cs.CV]

Автор: FakeFactFelis

Источник [5]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/94013

Ссылки в тексте:

[1] Image: https://habrastorage.org/files/aff/3ed/20c/aff3ed20cb1c4f7f854f52febdd68692.jpg

[2] текста исследования: http://arxiv.org/pdf/1506.06825v1.pdf

[3] MIT Technology Review: http://www.technologyreview.com/view/539051/googles-deep-learning-machine-learns-to-synthesize-real-world-images/

[4] arXiv:1506.06825: http://arxiv.org/abs/1506.06825

[5] Источник: http://geektimes.ru/post/253638/