검색 상세

A Geometric-Temporal Coupling Approach for Consistent Multi-View Video Depth Estimation

초록

In the field of video depth estimation, significant strides have been made with deep learning-based multi-view stereo approaches. However, existing studies struggle to produce consistently accurate depth maps that account for both multi-view geometry and temporal consistency from monocular video contents. To overcome this limitation, we introduce CMVDE, an innovative video depth estimation framework that leverages a multi-view geometric-temporal coupling approach in an end-to-end manner. Our proposed geometric consistency module efficiently generates multiview geometric features by employing mutual cross-view epipolar attention between adjacent video frames. Additionally, it compresses these features using the novel multi-scale feature compressor, producing an effective input tensor for the subsequent module. Moreover, our framework enhances temporal consistency across consecutive video frames with the temporal consistency module based on convolutional LSTM leveraging previous depth information as geometric guidance. Compared to state-of-the-art models, our approach achieves superior performance in depth quality and consecutive consistency on the ScanNet and 7-Scenes datasets, surpassing previous multi-view video depth estimation methods.

more

초록

비디오 깊이 추정 분야에서, 딥러닝 기반 다중 시점 스테레오 접근법으로 상 당한 발전이 이루어졌다. 그러나 기존 연구는 단안 비디오 콘텐츠의 다중 시점 기하학과 시간적 일관성을 동시에 고려함으로써, 일관되고 정확한 깊이 맵을 생 성하는 데에는 어려움을 겪었다. 이러한 제약을 극복하기 위해 우리는 CMVDE를 제안하였다. CMVDE는 다중 시점 기하적-시간적 결합 접근법을 사용하는 혁신 적인 비디오 깊이 추정 프레임워크이며, 엔드-투-엔드 방식으로 동작한다. 우리가 제안한 기하학적 일관성 모듈은 인접한 비디오 프레임 사이의 상호 교차 시점 에피 폴라 어텐션 기술을 활용하여 다중 시점 기하학적 특징들을 효율적으로 생성하고, 이러한 특징들을 새로운 다중 스케일 특징 압축기를 통해 압축하여 후속 모듈에 사용할 수 있는 효과적인 입력 텐서를 생성한다. 더불어, 통합된 프레임워크 구조 는 이전 깊이 정보를 기하학적 가이드로 활용하는 ConvLSTM에 기반한 시간적 일관성 모듈로 연속적인 비디오 프레임 간 시간적 일관성을 향상시킨다. 최신의 첨단 기법들과 비교하여, 우리의 방법은 ScanNet 및 7-Scenes 데이터 셋에서 깊이 품질과 연속성 측면에서 우수한 성능을 달성하였으며, 이전의 다중 시점 비디오 깊이 추정 방법들을 능가하였다.

more

목차

I . Introduction 1
II . Related works 4
III . Proposed methods 8
3.1 Geometric Consistency Module (GCM) 8
3.2 Temporal Consistency Module (TCM) 17
3.3 Multi-scale Feature Decoder 21
IV . Experiments 23
4.1 Implementation details 23
4.2 Datasets and evaluation metrics 23
4.3 Pseudo-depth map generation details 25
V . Results 27
VI . Ablations 32
VII . Conclusion 36
Bibliography 37

more