검색 상세

단일 이미지로부터 물성맵과 환경광맵을 동시 생성하는 신경망

A Network for Simultaneous Generation of PBR Maps and Environment Maps from a Single Image

초록 (요약문)

최근 Chat-GPT, Stable Diffusion, Midjourney 등 생성형 인공 신경망이 주목받고 있으며 점차 텍스트와 이미지 생성을 넘어 3D 그래픽 생성으로 발전 하고 있다. 특히 3D 그래픽 생성 모델은 메타버스 구축에 중요한 역할을 할 것으로 예상된다. 최근 학계에서는 Diffusion 기반의 딥러닝 기술을 활용한 3D 그래픽 생성 연구가 주목받고 있다. 3D 그래픽을 사실적이고 일관되게 구현하기 위해서는 물리 기반 렌더링 (Physically Based Rendering, PBR) 기술이 필요하며, 이를 위해 pbr map 및 외부 광원 정보인 environment map(이하 env map), 관찰자 역할을 하는 camera pose(카메라 위치 정보)가 필수적이다. 하지만 지금까지의 연구들은 주로 pbr map만 생성하는 방향으로 진행되었 다. 이를 위해서는 env map과 camera pose를 몇 가지 경우의 수로 제한하여 pbr map을 생성했다. 이러한 방식은 pbr map이 제한된 env map에 국한되어 생 성될 확률이 높다. 이는 3D 환경에서 사용자의 시각적 일관성을 떨어뜨려 몰 입감을 저해하는 결과로 이어질 가능성이 있다. 그러나 Render equation에 따르면 pbr map과 env map은 밀접한 관계가 있기 때문에 따로 생성하는 것보다는 동시에 생성하는 것이 이러한 문제점을 해결 하는 데에 도움이 될 것이다. 본 연구는 pbr map과 env map을 동시에 생성하는 diffusion 기반의 모델 (EnvMat)을 제안한다. 이를 위해서 pbr map과 env map을 각각 reconstruction 하는 2개의 VAE와 1개의 Latent Diffusion UNet 구조를 제안한다. 그 결과 기 존의 방식보다 원본의 특징을 잘 반영한 결과물이 생성됨을 정성적, 정량적 (L-PIPS, MS-SSIM, CIEDE2000)으로 확인했다.

more

초록 (요약문)

Recently, generative artificial neural networks such as Chat-GPT, Stable Diffusion, and Midjourney have gained significant attention, evolving beyond text and image generation to encompass 3D graphics generation. Notably, 3D graphics generation models are expected to play a crucial role in building the metaverse. In academic research, there has been growing interest in using diffusion-based deep learning technologies for 3D graphics generation. To implement 3D graphics realistically and consistently, Physically Based Rendering (PBR) is essential. This requires PBR maps, environment maps (env maps) containing external light source information, and camera poses, which represent the observer's viewpoint. However, existing studies have primarily focused on generating PBR maps alone. In such approaches, env maps and camera poses are often limited to a few predefined cases for generating PBR maps. This method increases the likelihood of PBR maps being constrained to specific env maps, potentially compromising visual consistency and immersion in 3D environments. According to the Render Equation, PBR maps and env maps are closely related. Thus, generating them simultaneously rather than separately can help address these limitations. This study proposes a diffusion-based model, EnvMat, for the simultaneous generation of PBR maps and env maps. The proposed model comprises two VAEs for reconstructing PBR maps and env maps and a Latent Diffusion UNet. Experimental results demonstrate that the proposed approach outperforms conventional methods in preserving original features, validated qualitatively and quantitatively through metrics such as L-PIPS, MS-SSIM, and CIEDE2000.

more

목차

제 1 장 서론 1
1.1 연구 배경 1
1.2 연구 목표 2
제 2 장 연구 배경 6
2.1 Rendering 6
2.1.1 물리 기반 렌더링(Physically-Based Rendering)[4], PBR map, Environment map 6
제 3 장 관련 연구 15
3.1 물질(Material) 캡처 및 추론 15
3.1.1 딥러닝을 활용한 물질 추론 15
3.1.2 생성 모델 16
3.2 기존 연구와 차별점 17
제 4 장 연구 방법 19
4.1 Datasets 19
4.1.1 Pbr Maps 19
4.1.2 Env Maps 20
4.1.3 Render Image 22
4.2 모델 학습 23
4.2.1 Pbr VAE 23
4.2.2 Env VAE 24
4.2.3 LDM 25
제 5 장 연구 결과 26
5.1 평가 방법 26
5.2 학습 결과 27
5.2.1 Baseline 모델 재현 27
5.2.2 정성평가 36
5.2.3 정량평가 51
제 6 장 결론 및 향후 연구 52
6.1 결론 52
6.2 한계점 52
6.3 향후 연구 55
참고 문헌 56

more