[논문 리뷰] De-Rendering 3D Objects in the wild

Jeeeun Song
KLleon
Published in
6 min readFeb 8, 2023

안녕하세요. 오늘은 CVPR 2022년에 출판된 De-Rendering 3D Objects in the wild 논문을 리뷰해보려 합니다.

증강현실 및 가상현실 어플리케이션 수요가 늘어감에 따라 image를 더욱 더 realistic하게 generation하거나 editing하는 것이 중요해지고 있습니다. 요즘은 이미지 안에 있는 객체들을 3D representation으로 변환하여 generation 및 editing하는 방식이 늘어가고 있는데요. 오늘 소개드릴 논문도 이런 흐름의 연구 중 하나 입니다.

논문의 첫 단어인 De-rendering이란 이미지에서 물체 고유한 특성 (3D shape, 재료 표면, 조명 속성 등)을 추론하는 것을 뜻합니다. 인간은 한 장의 이미지를 보고 사진의 3D shape 정보나 질감, 조명 위치 등 다양한 정보를 한번에, 쉽게, 추론할 수 있습니다. 하지만 computer는 그렇지 못하죠. 따라서 de-rendering은 computer vision의 오랜 목표이기도 합니다.

본 논문에서는 이미지를 3D representation 및 물리적 구성요소로 de-rendering 하고, 이 분해된 3d representation을 사용하여 재질 속성, 조명 속성을 변경할 수 있어 editing한 이미지의 리얼리즘을 높힐 수 있다고 주장합니다. 또한 본 논문은 이미지마다 재질 또는 조명의 위치 정보 등 물리적 구성 요소에 대한 label을 얻기 어렵기 때문에 supervised 방식 대신 weakly supervised method를 제안하였습니다.

본 방식은 이미지를 shape, material, light 3가지 물리적 component로 decomposition한 후, Image Formation model을 통해 이미지를 다시 reconstruction하는 방식으로 구성되어 있습니다.

Shape Decomposition

이미지의 per-pixel shading을 계산하기 위해 먼저 normal map을 구합니다. normal map은 [-1,1]범위의 값으로 구성된 map으로 3xHxW 차원을 가지며 depth map으로부터 구할 수 있습니다.

하지만 스크레치와 같은 미세한 geometric같은 디테일들은 normals엔 큰 영향을 미치지만 global한 shape에 미치는 영향은 적다고 합니다. 따라서 이를 보완하기 위해 저자는 depth map D(동시에 상응하는 normal map Nd도 같이 계산) 와 refinement normal mak Nref를 모두 예측하고 다음과 같이 결합하여 최종 normal map N을 얻습니다.

Material & Light Decomposition

본 논문은 Phong Illumination 기반으로 light에 대해서는 diffuse (난반사), Specular(정반사), Ambient(간접조명) 총 3가지 빛의 속성이 존재한다고 가정합니다. 따라서 자체발광하는 물체에 대해서는 적용할 수 없습니다. 또한 단일 방항성을 갖는 광원과 global ambient 광을 모델링 하였고, 두 빛 모두 하얀색으로 가정하고 있습니다.

light 정보는 ambient Samb과 directional strength Sdir, 그리고 light의 direction l을 parameterize 하여 light L = (Samb, Sdiff, l)로 표현합니다.

이 light 파라미터들을 구하기 위해 per-pixel Albedo map A를 사용합니다. Albedo map은 물체 고유한 색 정보를 표현하는 map이며 이 정보는 이미지에서 보여지는 빛의 반사에 따라 변형되는 색상의 정보와는 다릅니다.

다루기 복잡한 specularity을 tractable 하기 위해 global shiness value인 a 값을 사용하고, global specularity intensity 값을 담고 있는 a spec값을 사용합니다. 요약하면, intrinsic material 특성은 (A, a, a spec)으로 표현됩니다.

light parameter와 intrinsic material parameter들을 사용하여 하단의 식으로 이미지를 reconstruction 할 수 있습니다.

Shape Nework, Albedo Network, light network 총 3개의 network를 학습하게 되며 loss는 다음과 같습니다.

Coarse Geometry, Albedo, and Light loss

Reconstruction loss

GAN loss

그럼 간단하게 본 논문이 활용될 수 있는 application 중 하나로 조명의 위치를 바꾼 relighting 실험 결과를 살펴볼까요?

바뀐 조명 위치에 따라 그에 맞게 이미지가 잘 생성되는 것을 확인할 수 있고, 저자의 주장에 따라 최신 모델과 비교하였을 때 더 좋은 이미지 quality를 보여줍니다.

아무래도 Albedo map에서 빛의 정보를 pixel 마다 새롭게 줘서 색상을 구성하여 image를 reconstruction하다보니 relight된 이미지가 원본보다는 flat하게 보이기도 합니다.

오늘은 이미지로부터 shape, material, light 정보를 unsupervised 방식으로 decomposition하는 논문을 살펴보았는데요. 관련 연구들 모두 photorealism이라는 한 가지 목표을 보고 달려가는 것 같습니다. KLleon에서도 Photo-realistic을 높히기 위하여 연구원분들이 많은 노력을 기울이고 있으니 저희 서비스에 많은 관심 부탁드리겠습니다.

--

--