다중 시점 3D 재구성을 위한 멀티 헤드 어텐션 리파이너
Multi-Head Attention Refiner for Multi-View 3D Reconstruction
- 주제어 (키워드) 다중 시점 3D 재구성 , 3D 객체 재구성 , 어텐션 메커니즘 , 멀티 헤드 어텐션 , 복셀 그리드 , ShapeNet 데이터셋 , 성능 향상; Multi-view 3D Reconstruction , 3D Object Reconstruction , Attention Mechanism , Multi-Head Attention , Voxel Grid , ShapeNet Dataset , Performance Enhancement
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079317
- UCI I804:11029-000000079317
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 Pix2Vox++ 모델의 리파이너 모듈에 멀티 헤드 셀프 어텐션 메커 니즘(Multi-Head Self-Attention, MHSA)을 통합한 멀티 헤드 어텐션 리파이너 (Multi-Head Attention Refiner, MA-R)를 제안한다. Pix2Vox++는 Multi-scale Context-Aware Fusion(MCtx Fusion)을 통해 다중 시점 데이터를 융합하여 글 로벌 특징 학습의 기초를 제공했으나, 기존 리파이너 모듈은 로컬 특징 학습 에 국한되어 글로벌 관계를 명시적으로 모델링하지 못하는 한계가 있었다. MA-R은 글로벌 관계 학습 능력을 강화하여 복잡한 기하학적 구조에서도 경계 예측 정밀도와 세부 디테일 복원을 개선하였다. 실험 결과, 제안된 MA-R은 IoU와 F-Score와 같은 정량적 평가 지표에서 기 존 Pix2Vox++ 대비 성능 향상을 보였다. 특히, 20개의 입력 시점을 사용하는 경우 IoU는 0.719에서 0.730으로 1.1% 상승하였고, F-Score는 0.462에서 0.483으로 2.1% 향상되었다. 정성적 평가에서도 복잡한 형상을 가진 객체의 세부 구조와 경계 복원에서 MA-R의 우수한 성능을 확인할 수 있었다. 이는 MA-R이 멀티 헤드 어텐션을 통해 coarse volume 수준에서 글로벌 컨텍스트를 명시적으로 학습한 결과로 해석된다.
more초록 (요약문)
This study proposes a Multi-Head Attention Refiner (MA-R), which integrates the Multi-Head Self-Attention (MHSA) mechanism into the refiner module of the Pix2Vox++ model. Pix2Vox++ utilizes Multi-scale Context-Aware Fusion (MCtx Fusion) to fuse multi-view data, providing a foundation for global feature learning. However, the existing refiner module is limited to learning local features and cannot explicitly model global relationships. MA-R enhances the capability to learn global relationships, improving boundary prediction accuracy and detailed reconstruction even for complex geometric structures. Experimental results show that the proposed MA-R achieves performance improvements over the original Pix2Vox++ in quantitative metrics such as IoU and F-Score. Specifically, with 20 input views, IoU increased from 0.719 to 0.730 (a 1.1% improvement), and F-Score increased from 0.462 to 0.483 (a 2.1% improvement). In qualitative evaluations, MA-R also demonstrated superior performance in recovering fine structures and boundaries for objects with complex shapes. These results indicate that MA-R explicitly learns global context at the coarse volume level through the multi-head attention mechanism.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.1.1 3D 재구성과 어텐션 메커니즘 1
1.1.2 Pix2Vox++ 모델과 기존 한계 2
1.2 논문의 구성 3
제 2 장 관련 연구 4
2.1 3D 재구성 4
2.2 어텐션 메커니즘 6
2.3 멀티 헤드 어텐션 메커니즘 6
제 3 장 제안된 방법 9
3.1 Pix2Vox++ 네트워크 아키텍처 9
3.2 MA-R의 아키텍처(멀티 헤드 어텐션 구조의 통합) 11
3.3 손실 함수(Loss Function) 15
제 4 장 실험 및 결과 18
4.1 데이터셋 및 실험 환경 18
4.2 평가 지표 20
4.3 실험 환경 22
4.4 결과 23
4.4.1 정량적 평가 23
4.4.2 정성적 평가 26
4.4.3 실험 결과 분석 29
제 5 장 결론 및 논의 사항 30
제 6 장 참고 문헌 32