검색 상세

Vision-Language Guided Mean Teacher for Source-Free Domain Adaptive Object Detection

초록 (요약문)

Unsupervised Domain Adaptation (UDA)는 라벨이 있는 소스 도메인에서 라벨이 없는 타겟 도메인으로 지식을 전이하는 것을 목표로 한다. 하지만, 실제 환경에서는 소스 도메인 데이터에 접근할 수 없는 경우가 많아 일반적인 UDA 방법론의 활용이 제한된다. 이를 극복하기 위해 source-free domain adaptation (SFDA) 이 제안되었으며, 이는 소스 데이터셋으로 학습된 모델이 추가적인 소스 데이터 접근 없이 라벨이 없는 타겟 도메인에 적응하는 방법이다. 기존 SFDA object detection 방법은 소스와 타겟 도메인의 분포가 균형을 이루고 있다고 가정하며, mean teacher 구조를 채택함으로써 teacher model이 생성하는 pseudo label 에 의존한다. 그러나 이러한 접근법은 소스와 타겟 도메인 간의 클래스 분포 불균형 문제와 노이즈가 섞인 pseudo label로 인한 학습 불안정성이라는 문제가 있다. 본 논문은 이를 해결하기 위해 Vision-Language Guided Mean Teacher 모델을 제안한다. Downstream visual recognition 과제에서 유망한 성능을 보인 vision-language model (VLM)을 활용해 SFDA object detection의 안정성과 강인성을 향상시킨다. 이 방법론은 타겟 도메인 분포를 기반으로 VLM의 텍스트 프롬프트를 최적화하는 Class Balanced Prompt Loss를 도입하여 소스 도메인 편향을 완화하고 VLM의 예측 정확도를 높인다. 추가적으로 region proposal에서 얻은 VLM의 semantic 정보를 활용해 teacher의 예측에 가중치를 부여하는 Multimodal Weighted Semantic Loss를 제안하여 pseudo label의 노이즈를 줄인다. 본 논문의 제안 방법론은 5개의 cross-domain object detection 벤치마크에서 기존 SFDA 접근법을 능가하며 소스 데이터로 학습된 검출기를 다양한 타겟 도메인으로 효과적으로 적응시킨다.

more

초록 (요약문)

Unsupervised domain adaptation (UDA) in object detection aims to transfer knowledge from a labeled source domain to an unlabeled target domain. However, real-world scenarios often restrict access to source domain data, limiting the use of conventional UDA approaches. To overcome this, source-free domain adaptation (SFDA) has been introduced, where a model trained on a source domain adapts to an unlabeled target domain without further access to source data. Existing SFDA methods assume that the source and target domains are balanced and rely on pseudo labels generated by a teacher model within a mean teacher framework. Yet, these approaches suffer from challenges with class distribution imbalance between source and target domains and learning instability due to noisy pseudo labels. In response, we propose a Vision-Language Guided Mean Teacher model that leverages a vision-language model (VLM), to improve stability and robustness in SFDA object detection. By utilizing the VLM, which has shown promising performance in downstream visual recognition tasks, our model effectively resolves the challenges in SFDA. We introduce a class balanced prompt loss that optimizes text prompts of the VLM with the target domain distribution, mitigating source domain bias and enhancing VLM prediction accuracy. Additionally, we develop a multimodal weighted semantic loss that assigns weights to the teacher's predictions based on VLM-derived semantic information, thus reducing the noise in pseudo labels. Our method outperforms previous SFDA approaches on five cross-domain object detection benchmarks, effectively adapting source-trained detectors to diverse target domains.

more

목차

I Introduction 1
II Related Work 6
2.1 Unsupervised Domain Adaptation 6
2.2 Source-Free Domain Adaptive Object Detection 6
2.3 Pretrained Vision Language Model 7
III Proposed Method 9
3.1 Preliminaries 9
3.1.1 Problem statement 9
3.1.2 Mean-teacher framework 9
3.1.3 Overview 10
3.2 Class Balanced Prompt Tuning 12
3.2.1 Prompt tuning for SFDA object detection 12
3.2.2 Class Balanced Prompt Tuning Loss 13
3.3 Multimodal Weighted Semantic loss 14
3.3.1 Mean teacher consistency learning 14
3.3.2 Multimodal Weighted Semantic loss 15
3.4 Total loss function 17
IV Experiments 18
4.1 Implementation Details 18
4.2 Quantitative Results 18
4.2.1 Cityscapes to Foggy Cityscapes 18
4.2.2 Sim10k to Cityscapes 20
4.2.3 KITTI to Cityscapes 21
4.2.4 Pascal-VOC to Clipart, Pascal-VOC to Watercolor 21
4.3 Further Analysis 23
4.3.1 Ablation Studies 23
4.3.2 Qualitative Analysis 23
V Conclusion 26
Bibliography 27

more