Dynamic Architecture for Domain-Aware Visual Place Recognition
- 주제(키워드) Visual Place Recognition , Parameter Efficient Fine-Tuning
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000082528
- UCI I804:11029-000000082528
- 본문언어 영어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
Visual Place Recognition (VPR, 시각적장소인식)시스템은 조명, 날씨, 계절 변화와 같은 환경 요인으로 인해 학습 환경과 테스트 환경 사이의 영역 차이를 자주 겪습니다. 기존 방법들은 대체로 고정된 매개변수를 사용하는 입력 불변 설계를 채택하고 있어, 다양한 테스트 환경 전반에서의 강건성이 제한됩니다.우리는 Dynamic Architecture for Domain Aware Visual Place Recognition을 제안합니다. 이는 입력 장면의 특성에 따라 표현을 조정하는 동적 특징 변조로, 영역 간 일반화 성능을 향상 시키는 것을 목표로 합니다. 기초 모델 특징을 조건 신호로 활용해 공간 및 채널 차원에서 표현을 적응적으로 변조함으로써, 큰 영역 차이가 존재하는 상황에서도 성능을 강화합니다. 제안 방법은 (1) 장면 조건에 맞게 특징 표현을 조정하는 동적 어댑터, (2) 입력 특징으로부터 적응적 쿼리를 생성하는 트랜스포머 기반 집계기, (3) 질감과 외형 변화를 적용하는 영역 변동 증강으로 구성된다. 영역 차이가 큰 도전적인 장소 인식 벤치마크에서 수행한 광범위한 실험 결과, 우리 방법은 입력 불변 기준 방법들을 일관되게 상회하며 더 우수한 일반화 성능을 보였고, 새로운 최고성능을 달성합니다.
more초록(요약문)
Visual Place Recognition (VPR) often suffers from train-to-test domain shifts driven by environmental factors such as illumination, weather, and seasonal changes. Prior approaches typically adopt input-invariant designs with fixed parameters, limiting robustness across diverse test-time conditions. We introduce Dynamic Architecture for Domain-Aware Visual Place Recognition, a dynamic feature modulation framework that tailors representations to scene specific characteristics for improved cross-domain generalization. Leveraging foundation model features as conditioning cues, our approach adaptively modulates both spatial and channel-wise representations, strengthening performance under pronounced domain shifts. Our method comprises (1) a dynamic adapter that aligns feature representations with scene conditions, (2) a transformer-based aggregator that generates adaptive queries from input features, and (3) domain-variance augmentation that applies texture and appearance perturbations. Extensive experiments on challenging VPR bench marks with substantial domain gaps demonstrate that ours model consistently sur passes input-invariant baselines, delivering stronger generalization and achieving state-of-the-art performance.
more목차
List of Tables iii
List of Figures iv
초록 v
Abstract vi
I Introduction 1
II Related Works 6
2.1 Visual Place Recognition 6
2.2 Parameter Efficient Fine Tuning for VPR 6
2.3 Dynamic Modulation 7
2.4 Query Adjustment 8
III Method 9
3.1 Feature Extractor with Dynamic Adapter 9
3.1.1 Dynamic Filter Generation 11
3.1.2 Feature Modulation 13
3.2 Reweighted Query Generation 13
3.2.1 Reweighted Learnable Queries 15
3.3 Robust Training Strategy with Augmentations 16
IV Experiments 18
4.1 Datasets 18
4.2 Implementation Details 21
4.3 Quantitative Results 23
4.3.1 Indoor Scene Evaluation on Baidu Mall 26
4.4 Qualitative Results 27
4.4.1 Query Attention Map 28
4.4.2 Dynamic Spatial Weight 28
4.5 Efficiency Accuracy Trade-off in VPR Methods 29
4.6 Ablation Study 30
4.6.1 Ablation Study on ours model Modules 30
4.6.2 Dynamic Adapter Integration Strategies 32
4.6.3 Effect of Dynamic Adapter Layers 33
4.6.4 Effect of Learnable Query 34
4.6.5 Effect of Transformer Decoder Blocks 35
4.7 Extended Comparison with Advanced VPR Pipelines 35
V Limitation 38
VI Conclusion 41
Bibliography 42

