Оригинальная статья

Съемка стереоскопических панорамных изображений с высоким разрешением

Автор Пол Бурк
В сотрудничестве с Джеффри Шоу и Сарой Кендердин
июнь 2018 г.

 

Краткое содержание

Иммерсивный опыт, использующий возможности зрительной системы человека, обычно направлен на поддержку следующих возможностей: восприятие глубины посредством стереоскопического зрения, задействование периферического зрения, высокая острота зрения. Достижение этого в синтетических средах реального времени, таких как игровой движок, включает в себя средства представления двух визуализированных представлений каждому глазу, отслеживание наблюдателя в пространстве и обеспечение достаточно широкого поля зрения с высоким разрешением. Представление реальных фотографических изображений, отвечающих этим требованиям, значительно более проблематично. Например, фотография или видео захватывают сцену только с определенной позиции, тогда как компьютерная визуализация сцены может быть сгенерирована по желанию из любой позиции.

Так называемая всенаправленная стереоскопическая панорама (ODSP) – это хорошо зарекомендовавший себя метод стереоскопического захвата поля обзора в 360 градусов. Строго говоря, ODSP – это только приближение к правильным стереопарам, которые должны быть представлены зрителю, но это приближение, которое оказалось приемлемым, когда правильные представления не могут быть созданы синтетически. Ряд камер был предложен и сконструирован для захвата ODSP, ниже мы представим последнюю разработку, подход, во многом обусловленный развивающимися возможностями камер потребительского уровня.

Вступление

Всенаправленные стереоскопические панорамы (ODSP) – это термин, используемый для пары локально правильных стереоскопических панорам, охватывающих 360 градусов по долготе. «Локально правильный», потому что, если ограниченное горизонтальное поле зрения ODSP представляется зрителю, возникают минимальные воспринимаемые стереоскопические артефакты независимо от просматриваемой части панорамы. Это контрастирует с более традиционными парами стереоскопических изображений, которые требуют строго правильного знания положения зрителя.

На практике это означает, что ODSP может быть представлен, скажем, в цилиндре на 360 градусов, содержащем несколько наблюдателей, потенциально смотрящих в разных направлениях. Точно так же ODSP можно испытать в гарнитуре виртуальной реальности (VR) без каких-либо других зависимых от вида вычислений, кроме выбора правильной части пары панорамных изображений, когда зритель поворачивает голову. Напротив, для большинства сред виртуальной реальности необходимо вычислять точный вид, представленный каждому глазу, для всех положений зрителя и направлений обзора. Хотя это может быть достигнуто для визуализации в реальном времени, это невозможно для фотографически захваченных изображений или компьютерной визуализации или визуализации, которые не могут быть вычислены в реальном времени.

Теория, лежащая в основе ODSP, была по-разному представлена в 1990-х годах Исигуро и др., А также различные разработки камер и программного обеспечения, опубликованные Пелегом, включая вариант использования одной камеры.

Использование ODSP обеспечивает представление стереоскопических фотографических изображений, сводя к минимуму отклонения от точных пар изображений, которые должны быть представлены каждому глазу. Есть два источника ошибок, первый возникает, когда зритель не находится в том же положении по отношению к устройству просмотра, в котором был захвачен ODSP. Например, если зритель не расположен в центре цилиндрической среды отображения или в контексте гарнитуры VR, зритель не находится в центре виртуального цилиндра, на котором ODSP является текстурной картой. Вторая ошибка – это отклонение пар идеальных стереоскопических изображений от их соответствующих вертикальных центров. То есть, стереоскопическое восприятие совершенно правильное в центре поля зрения и становится все более искажённым к левому и правому краю поля зрения. К счастью, последствия этой ошибки редко вызывают проблемы. Одна из причин заключается в том, что очки, используемые в стереоскопических системах, обычно ограничивают горизонтальное поле зрения примерно до 60 градусов. Хотя это может показаться препятствием для погружения через периферическое зрение, наше восприятие глубины ограничено естественным образом из-за окклюзии носа, а стереоскопические очки в тонкой оправе все ещё могут обеспечивать периферическое зрение в дальней зоне вне оправы очков. Ещё одна причина минимального влияния стереоскопической ошибки на угол заключается в том, что люди естественным образом фиксируют и выравнивают голову в соответствии с направлением обзора. К счастью, последствия этой ошибки редко вызывают проблемы. 

Подходы

Прямые реализации камеры ODSP были созданы Зейтцем еще в 1955 году. В 1997 году они выпустили «Roundshot Super 70», на основе которого была сконструирована ограниченная серия установок с двумя камерами, которые фиксировали настоящий непрерывный ODSP. Непрерывный, потому что пара рулонов плёнки экспонировалась, в то время как шторки камеры оставались открытыми, а установка с двумя камерами вращалась. Обычно пары ODSP сканировались барабанами, и разрешение было намного выше, чем у большинства презентационных систем, это все еще актуально и сегодня. Однако будущее как пленки, так и качественных сканеров для сканирования в цифровой формат все больше требует поиска цифровой альтернативы. Не говоря уже о том, что именно эта камера уже какое-то время снята с производства.


Круговой снимок камеры в поле, Индия.

 

Одна из альтернатив – получить относительно небольшое количество фотографий с двух офсетных камер и объединить их в панораму с использованием хорошо зарекомендовавших себя программных инструментов для сшивания моноскопических панорам, см. Следующий рисунок, где показан вид сверху вниз усечённых камер для системы из восьми камер.

Фундаментальный источник ошибки параллакса и ошибки масштабирования на установках с несколькими камерами и установках с дискретным шагом вращения

 

Обратите внимание, что две камеры обязательно нарушают обычное вращение вокруг нулевого положения параллакса объектива. Хотя этот подход на практике часто может давать приемлемые результаты, и его можно расширить до видеозаписи, используя несколько видеокамер, а не вращающуюся установку, у него есть ограничения. Первая проблема связана с ошибкой параллакса, то есть между двумя соседними положениями камеры записываются немного разные виды объекта сцены. Следствием этого является то, что идеальный шов невозможен, учитывая, что это возможно для определенной глубины, но не для всех глубин сразу. Вторая проблема заключается в том, что между соседними положениями камеры одна камера находится ближе к объектам сцены, чем другая, что приводит к такому же эффекту, как изменение масштаба через границу между камерами. Следствием проблемы параллакса является сложность создания идеального стыка в зоне перекрытия, эти ошибки обычно проявляются для близких объектов в сцене.

На практике при достаточном перекрытии современные методы машинного зрения могут определять характерные точки между камерами и формировать две очевидно бесшовные панорамы. Однако для достижения этих результатов эти алгоритмы часто используют локальное искажение, которое сводится к искажению глубины в этих областях, а также к различиям между видимыми объектами сцены, которые часто очень заметны при просмотре в высококачественной стереоскопической системе просмотра. Результатом являются неоднородности изображения, которые часто более очевидны при просмотре стереоскопических пар по сравнению с моноскопическим просмотром панорам.

В связи с недавним возрождением дисплеев, устанавливаемых на голову, был разработан широкий спектр сложных алгоритмов для решения этих проблем или, по крайней мере, для их скрытия. Это включает в себя линии шва и разрезы изображений по характерным кривым, интерполяцию формы, оптический поток и многое другое. Хотя каждый из этих методов находит применение в некоторых ситуациях, они, как правило, предназначены для сокрытия очевидных дефектов изображения, которые неизбежно возникнут. У каждого из них есть ситуации, в которых они терпят поражение.

Разница между идеальным ODSP и конечным числом камер заключается в степени дискретизации. Авторы и другие экспериментировали с ручным вращением камеры, постоянно уменьшая небольшие углы шага между каждым снимком. На каком-то этапе для практических целей требуется моторизованная система, даже при 3 градусах на каждую камеру приходится 120 отдельных снимков камеры, и если сделать это вручную, сцена почти наверняка изменится в течение всего времени захвата.

Узкие полосы из каждого видеокадра вносят вклад в окончательное панорамное изображение.

 

Размер углового шага зависит от того, насколько узкой должна быть зона параллакса на рисунке 2, а также от ошибки масштабирования, насколько близко объекты могут быть к камере. Для протестированных авторами внутренних сцен даже шаг в 1 градус был недостаточным. По сути, оба эффекта должны приводить к разнице менее одного пикселя по краю между соседними прорезями изображения. На этом этапе было решено, что ручное дискретное пошаговое управление неадекватно, и требуется система непрерывного вращения, записывающая не фотографии, а видео.

Хотя здесь это не обсуждается, была исследована возможность записи с одной перпендикулярной офсетной камеры . Он имеет некоторые преимущества, например, возможность выбора межглазного разделения при пост-обработке и необходимость использования одной камеры, что позволяет сэкономить средства и возможные цветовые или оптические различия между двумя камерами и объективами. На самом деле, чтобы добиться разделения человеческого глаза, тангенциально вращающаяся камера должна быть дальше от центра, чем пара камер. Это не только привело к механическим деформациям вращающейся системы, но и усугубило проблемы параллакса и масштабирования, описанные выше.

Решение

Желательные характеристики пары камер для установки ODSP следующие:

1.Корпус и объектив камеры не должны быть значительно больше 6,5 см, чтобы ODSP можно было создать на обычном расстоянии человеческого глаза или близко к нему.

2.Было решено, что для получения требуемого качества панорамы требуется высококачественная панорама 4K, поэтому и требуется режим записи 4K.

3.Количество дискретных шагов во многом определяется временем захвата и частотой кадров видео. Скорость захвата 20 кадров в секунду или выше оказалась достаточной.

4.Поскольку для достижения (3) и (4) требуются видеорежимы, желательно, чтобы фильмы имели максимально возможную глубину цвета и записывались с минимальными артефактами сжатия.

В первом квартале 2017 года Panasonic выпустила камеру Lumix GH5, которая обладала многими из перечисленных выше желательных функций и делала её экономически эффективным кандидатом на высококачественную установку ODSP. В частности, она могла записывать видео в формате 4K с приемлемой частотой кадров, 10 бит и минимально сжатым видео 4: 2: 2.

Режимы съёмки Lumix GH5, относящиеся к этому обсуждению, перечислены в следующей таблице, показаны только режимы 4K и UHD 10 бит со сжатием 4: 2: 2. Отметим, что эти режимы появятся после выпуска прошивки в конце 2017 года. Таким образом, можно найти компромисс между разрешением и шириной щели (функцией частоты кадров) для динамического диапазона и качества изображения. Режим, выбранный для этой работы, – это третий ряд с подсветкой, настоящее разрешение сенсора 4K, 24 кадра в секунду, 10-битный цвет и сжатие 4: 2: 2. Следующим кандидатом было бы 29,97 кадра в секунду при разрешении 3840 пикселей, это снизило бы разрешение панорамы, но обеспечило бы меньшую ширину щели. Обратите внимание, что камера поддерживает как более высокое разрешение, так и более высокую частоту кадров, но за счет глубины изображения и сжатия.

Разрешение (пиксели) FPS Глубина цвета (бит) Сжатие
4096×2160 23,98 10 4: 2: 2 ALL-I и Long GOP
3840×2160 23,98 10 4: 2: 2 ALL-I и Long GOP
4096×2160 24.00 10 4: 2: 2 ALL-I и Long GOP
3840×2160 24.00 10 4: 2: 2 ALL-I и Long GOP
3328×2496 24.00 10 4: 2: 2 ALL-I и Long GOP
3840×2160 25.00 10 4: 2: 2 ALL-I и Long GOP
3840×2160 29,97 10 4: 2: 2 ALL-I и Long GOP

 

Чтобы получить панораму с высоким разрешением 4K, камеры ориентированы в портретном режиме, был разработан специальный зажим для объектива, обеспечивающий минимально возможное межглазное расстояние. Было уделено внимание ориентации камер под углом для увеличения вертикального разрешения за счёт использования диагональной щели, а не вертикальной щели. Это не было реализовано в основном потому, что для используемых соотношений сторон усиление составляло лишь скромные 15%, что значительно усложняло (и, возможно, ухудшало качество) постпродакшн.

Реализация

Различные виды прототипа камеры. Моторизованный блок Syrp, регулировочное кольцо Manfrotto, две камеры GH5, индивидуальное крепление объектива.

 

Обработка изображения

Самый простой метод формирования каждой из финальных панорам – просто извлечь щели из каждого видеокадра, собирая их буквально, как показано на рисунке выше. На практике выбирается немного более широкая прорезь, и смежные прорези совмещаются в области перекрытия.

Горизонтальное поле зрения одиночной щели h fov определяется выражением

Где φ – общий угол поворота, T – продолжительность вращения, а f – количество кадров в секунду записи. Ширина щели w в пикселях определяется выражением

где v fov – вертикальное поле зрения объектива, а H – высота кадра в пикселях. В следующей таблице перечислены типичные значения ширины щели для выбора объективов и режимов записи камеры. Обратите внимание, что вертикальное поле зрения может отличаться от предсказанного теоретически, поскольку разные режимы камеры могут использовать разные области доступной области датчика. Это также иллюстрирует преимущество выбора линзы, которая меньше всего требуется для конкретного приложения, чтобы максимизировать разрешение по горизонтали.

Объектив (мм) Режим записи камеры fov (градусы) Ширина щели
20 4096×2160 @ 23,98 кадра в секунду 47,6 22,6
14 3840×2160 @ 25 кадров в секунду 62 16.0
10,5 4096×2160 @ 23,98 кадра в секунду 75,5 12,9
7 3840×2160 @ 25 кадров в секунду 95 9.0
Пример ширины щели для выбора объективов и режимов камеры.

 

Этот подход с прямым разрезом имеет ряд недостатков, один из которых состоит в том, что он делает сглаживание проблематичным, когда, например, кто-то желает сопоставить входные кадры с панорамой с более высоким или низким разрешением. Другая проблема заключается в том, что идеальное количество пикселей на щель, как правило, не является целым числом, и все же можно выделить только целочисленные щели. Хотя это может быть незначительным эффектом для широких щелей, в работе здесь стремятся максимально приблизить непрерывный случай, чтобы использовались очень узкие щели, обычно от 5 до 15 пикселей.

В более элегантном решении используется подход, используемый в большинстве сопоставлений изображений, то есть каждый рассматривает каждый пиксель в выходном изображении и оценивает лучший пиксель из входных изображений. Использование этого алгоритма сглаживания несложно, то есть каждый выходной пиксель подвергается суперсэмплингу с усредненными вместе составляющими пикселями входного изображения. Это дополнительно служит для увеличения динамического диапазона результата и естественным образом обрабатывает оценки, близкие к общему краю прорезей из соседних изображений.

Алгоритм обратного просмотра. Один пиксель в окончательной панораме подвергается суперсэмплингу, значение RGB из нескольких изображений и нескольких пикселей в изображении вносит вклад в окончательное значение.

 

Окончательное разрешение панорамы зависит от количества пикселей по вертикали и поля зрения объектива по вертикали. Количество пикселей по вертикали H фиксируется в зависимости от сенсора и режима съемки камеры. Количество пикселей по горизонтали W определяется выражением

Это может показаться нелогичным, но причина этого в том, что вертикальное поле зрения линзы распределено по доступным пикселям по вертикали, что даёт определённое количество градусов на пиксель. Для квадратных пикселей это определяет количество пикселей по горизонтали на 360 градусов по горизонтали. Таким образом, объективы с таким узким вертикальным полем обзора обеспечивают наивысшее разрешение панорамы по горизонтали. Это для цилиндрической панорамы, поскольку v fov стремится к 180 градусам, цилиндрическая панорама становится неэффективной. Точно так же, как перспективная проекция становится все более растянутой и неэффективной, когда поле зрения приближается к 180 градусам (фактически около 130 градусов). Для ADSP с высоким вертикальным полем зрения более уместна линза «рыбий глаз», это выходит за рамки данного обсуждения.

Финальный конвейер выглядит следующим образом.

1.После установки штатива и тщательного выравнивания установки камеры видео снимается одновременно на каждой камере. Захваченный угол поворота находится в диапазоне от 400 градусов (при условии достаточного перекрытия для смешивания по краю панорамы 0–360) до 720 градусов (максимум, разрешенный текущим моторизованным вращателем). Причина 720 градусов (два поворота) состоит в том, чтобы обеспечить возможность коррекции неожиданно движущихся объектов, обычно людей и птиц.

2.Каждый видеофайл передаётся с камеры на компьютер, и из каждого кадра извлекается достаточная ширина щели, чтобы сделать выборку в окончательной панораме. Это в значительной степени этап повышения эффективности хранения, нет смысла сохранять весь кадр, поскольку требуется только небольшая часть пикселей в каждом кадре фильма, например 15 пикселей из доступных 2180 пикселей.

3.Две панорамы собираются методом прямого или обратного отображения. Программное обеспечение требует различных параметров, относящихся к камере, объективу и режиму записи.

4.Идентифицируются три столбца на каждой из последних двух панорам: левый и правый края для перехода через границу 0 и 360, а также столбец, определяющий объект с нулевым параллаксом. Решение, выходящее за рамки данной статьи, используется для выполнения обрезки, смешивания и выравнивания с нулевым параллаксом. Обратите внимание, что выравнивание нулевого параллакса зависит от конечной среды просмотра, например, оно зависит от радиуса цилиндрических дисплеев для проецируемых сред, для дисплеев, устанавливаемых на голову, объект будет установлен на бесконечности.

5.Цветовая градация перед уменьшением значений RGB до 8 бит для окончательной системы представления. Все вышеперечисленные процессы выполняются в 16-битном цвете, захватывая 10-битный цвет из отснятого камерой материала и любое увеличение динамического диапазона от смешивания и / или сглаживания в композиции панорам.

Обычно только результаты стадий (2) и (3) архивируются как исходный материал. (2), чтобы любые последующие улучшения алгоритма можно было повторно применить к отснятому материалу. (3) так, чтобы любое редактирование (размер изображения, цвет, нулевой параллакс) можно было повторно применить.

пример

Пример съёмки с объективом 20 мм, вертикальный угол обзора 48 градусов. Финальная стереопанорама шириной 30 000 пикселей. Примечание: нулевой параллакс установлен для цилиндрического дисплея радиусом 5 м, а не для HMD. Вверху: левый глаз. Внизу: правый глаз.

 

 

Камера в полевых условиях в Индии, обратите внимание, что прорези держателя объектива не прикреплены, так как солнце не попадает в кадр.
Пример съемки с объективом 10 мм, вертикальное поле обзора 75 градусов. Финальная стереопанорама шириной 17000 пикселей. Примечание: нулевой параллакс установлен для цилиндрического дисплея радиусом 5 м, а не для HMD. Вверху: левый глаз. Внизу: правый глаз.

 

Ссылки

К. Мацен, М. Ф. Коэн, Б. Эванс, Дж. Копф, Р. Селиски. 2017. Недорогое 360 стерео фото и видео захват. ACM Trans. График. 36, 4, статья 148 (июль 2017 г.), 12 стр. DOI: https://doi.org/10.1145/3072959.3073645

Х. Исигуро, М. Ямамото и С. Цуджи, Всенаправленное стерео, IEEE Transactions по анализу шаблонов и машинному интеллекту, Vol. 14, No. 2, pp. 257-262, февраль 1992 г.

  1. C. Huang and Y. P. Hung, Panoramic Stereo Imaging System with Automatic Disparity Warping and Seaming. Graphical Models and Image Processing, Vol. 60, No. 3, pp. 196-208, May 1998.
  2. Pritch, M. Ben-Ezra, S. Peleg. Automatic disparity control in stereo panoramas (OmniStereo). Proceedings IEEE Workshop on Omnidirectional Vision (Cat. No.PR00704). 12 June 2000. DOI: 10.1109/OMNVIS.2000.853805. Print ISBN: 0-7695-0704-2.
  3. Pritch., M. Ben-Ezra, S. Peleg. (2001) Optics for Omnistereo Imaging. In: Davis L.S. (eds) Foundations of Image Understanding. The Springer International Series in Engineering and Computer Science, vol 628. Springer, Boston, MA.
  4. Aggarwal, A. Vohra, A. M. Namboodiri. 2016. Panoramic stereo videos with a single camera. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 3755-3763. doi>10.1109/CVPR.2016.408.
  5. Lee, B. Kim, K. Kim, Y. Kim, J. Noh. 2016. Rich360: optimized spherical representation from structured panoramic camera arrays. ACM Transactions on Graphics (TOG) 35, 4 (2016), 63.
  6. Richardt, Y. Pritch, H. Zimmer, A. Sorkine-Hornung, Megastereo: Constructing High-Resolution Stereo Panoramas, Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition, p.1256-1263, June 23-28, 2013 doi>10.1109/CVPR.2013.166.
  7. Peleg and M. Ben-Ezra, Stereo Panorama with a Single Camera. Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 395-401, June 1999.

С. Пелег, Ю. Прич, М. Бен-Эзра. Камеры для стереопанорамного изображения. Труды конференции IEEE по компьютерному зрению и распознаванию образов. CVPR 2000 (каталожный номер PR00662) 15 июня 2000 г. DOI: 10.1109 / CVPR.2000.855821. ISBN для печати: 0-7695-0662-3

С. Пелег, М. Бен-Эзра, Ю. Прич. Omnistereo: панорамное стереоизображение. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp. 279-290, март 2001 г.

Бурк П.Д. Синтетические стереоскопические панорамные изображения. Конспект лекций по информатике (LNCS), Springer, ISBM 978-3-540-46304-7, том 4270, 2006 г., стр. 147-155

McGinity, M., Shaw, J., Kuchelmeister, V., Hardjono, A. & Del Favero, D. (2007) AVIE: универсальный многопользовательский стерео 360 ° интерактивный театр виртуальной реальности. В материалах семинара 2007 года по новым технологиям дисплеев: изображения и не только: будущее дисплеев и взаимодействия (Сан-Диего, Калифорния, 4–4 августа 2007 г.). EDT ’07, т. 252. ACM, Нью-Йорк, штат Нью-Йорк.

Алекса М., Коэн-Ор Д., Левин Д. Интерполяция максимально жёсткой формы; Труды Международной конференции по компьютерной графике и интерактивным методам конференции (SIGGRAPH); Новый Орлеан, Лос-Анджелес, США. 23–28 июля 2000 г .; С. 157–164.

Ли Л., Яо Дж., Лу X., Ту Дж., Шан Дж. Оптимальное обнаружение линии стыка для мозаики нескольких изображений с помощью разрезов графа. ISPRS J. Photogramm. Remote Sens.2016; 113: 1–16. Doi: 10. 1016 / j.isprsjprs .2015.12.007.

Б. Сю, С. Патхак, Х. Фуджи, А. Ямасита и Х. Асама, «Завершение видео на основе оптического потока в последовательностях сферических изображений», Международная конференция IEEE по робототехнике и биомиметике (ROBIO), 2016 г., Циндао, 2016 г., стр. 388-395. DOI: 10.1109 / ROBIO.2016.7866353