검색 상세

CLIP 기반 의미 Prior 및 이중 디코더 구조를 활용한 Human-Object Interaction 검출 방법

Context-Aware HOI Detection via CLIP-based Semantic Prior Enhancement and Dual Decoder Architecture

초록 (요약문)

인간-객체 상호작용(Human-Object Interaction, HOI) 검출은 이미지 내에서 인간과 객체 간의 복잡한 상호작용을 이해하고 인식하는 컴퓨터 비전의 핵심 과제이다. 그러나 기존 HOI 검출 기법은 의미적 맥락 정보의 부족, 비효율적인 후보 pair 구성, 클래스 불균형 등의 한계로 인해 여전히 해결이 요구되는 도전적 문제로 남아 있다. 본 논문에서는 이러한 한계를 극복하고 이미지 내 인간-객체 상호작용을 정밀하게 검출하기 위해 전역 의미 prior 와 다중 시각 디코더를 결합한 HOI 검출 프레임워크를 제안한다. 제안하는 모델은 CLIP 기반의 의미적 정보를 활용하여 인간-객체 후보 pair 의 신뢰도를 사전 평가하고, 의미 가능성이 낮은 pair 를 제거함으로써 검출 효율성을 향상시킨다. 또한 ResNet 과 CLIP 특징을 결합한 Dual Decoder 구조를 도입하여 인간과 객체 간 복잡한 상호작용 표현을 정교하게 학습한다. 이와 함께 prior 정보를 반영한 손실 함수를 설계하여 클래스 불균형과 long-tail 분포 문제를 효과적으로 완화한다. 제안 모델은 대표적인 HOI 벤치마크 데이터셋인 HICO-DET 와 V-COCO 에서 기존 방법 대비 우수한 성능을 나타내며, 특히 다양한 상호작용 상황과 희소 클래스에서도 강인한 성능을 보인다. 본 연구는 의미적, 문맥적 정보 통합과 효율적인 후보 pair 구성 전략을 통해 HOI 검출 성능을 효과적으로 향상시킬 수 있음을 실험적으로 입증하였으며, 이는 향후 응용 분야에서의 활용 가능성을 높이는 데 기여할 것으로 기대된다.

more

초록 (요약문)

Human-Object Interaction (HOI) detection is a key task in computer vision that aims to understand and recognize complex interactions between humans and objects within an image. Existing methods still face significant challenges due to limited semantic context, inefficient candidate pair generation, and class imbalance. This thesis proposes a novel HOI detection framework that combines global semantic priors with a multi-visual decoder architecture. The model leverages CLIP-based semantic information to pre-assess the reliability of candidate human-object pairs, filtering out unlikely pairs to improve detection efficiency. A Dual Decoder architecture integrating ResNet and CLIP features is adopted to accurately model complex interactions, while a prior-guided loss function mitigates class imbalance and long-tail distribution issues. The proposed model achieves superior performance on benchmark datasets HICO-DET and V-COCO, demonstrating robustness across diverse interaction scenarios, including rare classes. The results validate that integrating semantic and contextual information with an efficient candidate pair selection strategy significantly enhances HOI detection performance and practical applicability.

more

목차

1 서론 1
2. 연구 배경 3
2.1 Human-Object Interaction 검출 문제 정의 3
2.2 관련 연구 6
2.2.1 One-Stage 기반 HOI 검출 6
2.2.2 Two-Stage 기반 HOI 검출 7
2.2.3 Vision-Language 모델 기반 HOI 검출 7
2.3 기존 연구에 대한 문제점 분석 9
3. Human-Object Interaction 검출 시스템 설계 12
3.1 전체 시스템 구조 12
3.2 상세 설계 14
3.2.1 선행 연구 기반 쿼리 구성과 입력 특징 추출 14
3.2.2 CLIP 기반 Pair Semantic Prior Weight 계산 15
3.2.3 CLIP-ResNet Dual Decoder 구조 19
3.2.4 Prior-Guided Focal Loss 및 후처리 21
4. 실험 및 분석 27
4.1 실험 환경 및 데이터셋 27
4.2 실험 및 성능 분석 29
4.2.1 제안 모델 성능 평가 29
4.2.2 Ablation 분석 31
4.3 정성적 분석 34
4.3.1 검출 우수 사례 및 실패 사례 분석 34
4.3.2 어텐션 히트맵 분석 41
4.4 기존 연구와의 비교 분석 44
5. 결론 및 향후 과제 47
6. 참고 문헌 49

more