Главная

Алгоритм DeepStereo склеивает снимки Google Street View в гладкое видео

2015-07-16 в 10:19, admin, рубрики: DeepStereo, Google, Google Street View, Алгоритмы, видео, обработка изображений, Программирование, Фототехника

Исследователи компании Google Джонн Флинн, Айван Нюландер, Джеймс Филбин и Ной Снейвли создали алгоритм, который способен комбинировать снимки из сервиса обзора панорамных видов улиц Street View в гладкие видеоролики с едва заметными артефактами. Алгоритм получил название DeepStereo, пример его работы представлен выше. Вероятное использование созданной технологии включает создание простых анимаций, обработку изображений, кино и виртуальную реальность.

Не всегда возможно адекватно оценить некоторое место только по картам или цифровым снимкам. Посмотреть на улицу с высоты чуть выше человеческого роста помогают сервисы по типу Google Street View. Но это склеенные в панораму фотографии, а не видеоролики.

Если нужно создать анимацию движения вперёд из отдельных снимков, то решение просто проиграть последовательность изображений не подойдёт — оно получится слишком быстрым, поскольку картинки будут меняться с частотой как минимум 24 кадра в секунду. В случае проезда по широкой ровной дороге или шоссе можно создать неплохую анимацию в стиле замедленной съёмки. Но в Google Street View есть панорамы музеев и витиеватых улочек — таймлапс из быстрой смены кадров здесь не получится. Нужны недостающие изображения между снимками. Этим и занимается созданный алгоритм.

Команда исследователей использовала обширные знания компании в обучении алгоритма. На входе имеется набор изображений с некоторых точек, а целью является создание новых кадров с других точек. Точное решение этой задачи требует построения 3D-модели окружения, что чаще всего невозможно из-за преград. Задача не нова. Некоторые предыдущие методы обладают проблемами, которые приводят к появлению разрывов возле барьеров, алиасингу и размытию. Особенные сложности вызывают деревья и другие объекты, отдельные элементы которых могут закрывать вид.

Новый метод команды Флинна использует обучение алгоритма компьютерного зрения для того, чтобы он мог понять, какие объекты должны быть в недостающих кадрах. Для обучения использовались наборы изображений с двигающегося автомобиля. Исследователи заявляют, что объем базы для обучения составил 100 тысяч наборов изображений.

Затем проводилось тестирование с использованием последовательностей из трёх снимков из Google Street View. Алгоритм заставляли обработать два крайних изображения и представить вариант промежуточного. Сравнение с оригиналом позволяло оценить работу.

Конечный результат DeepStereo команда называет правдоподобным. С первого взгляда его не так легко отличить от реальной фотографии. Заметные артефакты включают лёгкую потерю разрешения и пропадание тонких структур на переднем плане. Объекты со сложной структурой, которая перекрывает свои собственные детали, могут появляться в размытом виде. Алгоритм также не в состоянии создать поверхности, которых нет в оригинальных снимках. Перемещающиеся объекты (пешеходы, машины) намеренно размыты, чтобы создать эффект движения.

Для рендеринга требуется внушительная вычислительная мощь. Для создания лишь одного изображения разрешением 512×512 пикселей требуется примерно 12 минут работы многоядерной системы с неназванными техническими характеристиками. Создание изображений большего разрешения требует слишком много оперативной памяти. Исследователи выражают надежды по оптимизации алгоритма с возможностью сокращения времени рендеринга до нескольких минут или даже секунд при использовании процессоров видеокарт. В перспективе при значительной доработке работа алгоритма на GPU возможна даже в реальном времени.

По материалам текста исследования и MIT Technology Review. arXiv:1506.06825 [cs.CV]

Автор: FakeFactFelis

Источник