검색 상세

VHOIP : Video-based Human-Object Interaction recognition with CLIP Prior knowledge

VHOIP: CLIP 사전 지식을 활용한 비디오 기반 인간-객체 상호작용 인식

초록 (요약문)

In this paper, we introduce a novel approach to recognizing Human-Object Interactions (HOI) in videos, crucial for understanding videos focused on human activities. Traditional methods often fall short of accurately identifying subtle interactions, particularly in dynamic sequences involving multiple individuals and objects. To address these issues, we leverage the CLIP (Contrastive Language–Image Pre-training), renowned for its rich visual and linguistic knowledge. Our method, Video-based HOI recognition with CLIP Prior knowledge (VHOIP), merges the spatial and temporal analysis capabilities of a video-based HOI framework with the detailed interaction understanding from CLIP. This enhancement significantly advances our HOI recognition performances. Through rigorous validation of three different HOI recognition datasets, our method demonstrates remarkable improvements over current state-of-the-art techniques, both qualitatively and quantitatively, indicating the effectiveness of our approach.

more

초록 (요약문)

본 논문에서는 인간 활동을 중심으로 하는 비디오를 이해하는 데 중요한 인간- 객체 상호작용(HOI)을 인식하기 위한 새로운 접근 방식을 소개한다. 기존의 방법들은 특히 여러 개인과 객체가 포함된 동적 시퀀스에서 미묘한 상호작용을 정확하게 식별하는 데 종종 부족함을 보인다. 이러한 문제를 해결하기 위해 우리는 풍부한 시각적 및 언어적 지식으로 잘 알려진 CLIP(Contrastive Language– Image Pre-training)을 활용한다. 우리의 방법인 VHOIP(Video-based HOI recognition with CLIP Prior knowledge)는 비디오 기반 HOI 프레임워크의 공간 및 시간 분석 기능과 CLIP 의 세부적인 상호작용 이해를 결합한다. 이 향상된 방법은 우리의 HOI 인식 성능을 크게 향상시켰다. 세 가지 다른 HOI 인식 데이터셋에 대한 엄격한 검증을 통해, 우리의 방법은 정성적 및 정량적으로 현재 최첨단 기술들에 비해 놀라운 개선을 보여주며, 우리의 접근 방식의 효과를 입증한다.

more

목차

I. Introduction 1
II. Related Work 3
A. Human-object interaction detection in images 3
B. Human-object interaction recognition in videos 5
C. Mutual information neural estimation 6
III. Methodology 7
A. Preliminaries 7
B. Integrated Global Representations 8
C. Maximizing Mutual Information 10
D. Global Text Representation 11
E. Training and Inference 12
IV. Experiments 12
A. Datasets 12
B. Implementation details 13
C. Quantitative Evaluation 15
D. Ablation study 17
E. Qualitative Comparison 20
V. Conclusion 22
References 24

more