시간 정렬 좌표 표현 기반의 적응형 정보 어댑터를 활용한 행동 탐지
Action Detection Using Temporal Informative Adapters Based on Time-Aligned Coordinate Expression
- 주제어 (키워드) 비디오 행동 인식 , 시간적 행동 탐지 , 특징 추출 , 시간적 정보 활용 , 비디오 이해 및 분석 , 시간적 정보 어댑터 , 트랜스포머 , Video Action Recognition , Temporal Action Detection , Feature Extraction , Temporal Informative Utilization , Video Understanding and Analysis , Temporal Informative Adapter , Transformer
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000079318
- UCI I804:11029-000000079318
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Query-based Temporal Action Detection 모델에 Temporal Informative Adapter를 다양한 위치에 적용을 통한 성능 향상 Temporal Action Detection (TAD)은 비디오에서 시간적으로 변화하는 행동을 탐지하는 기술로, 영상 분석, 보안, 스포츠 분석, 영화 콘텐츠 분석 등 다양한 분야에서 중요한 역할을 한다. 본 연구에서는 query-based detector를 기반으로 비디오 내 각 시점에서 발생하는 행동을 효과적으로 탐지하는 모델을 제안하였다. 기존의 TAD 모델과 다르게 detector head에 Plain Adapter와 Temporal Informative Adapter (TIA)를 적용하는 방법을 제안한다. TIA는 Pre, Post, Intermediate, Parallel의 네 가지 방식으로 설계하여 다양한 적용 위치에서의 효율성을 검증하였다. 이를 통해 모델의 fine-tuning을 효과적으로 수행하면서도 추가적인 연산 비용을 최소화할 수 있었다. 또한 특징 추출 단계에서는 3D CNN과 ViT기반 모델들을 비교 평가하여 최적의 특징 추출 방법을 선택하였다. 제안된 모델은 THUMOS14 데이터셋에서 기존 query-based detector 모델 대비 평균 mAP 2%p 향상을 달성하며 state-of-the-art 성능을 기록하였다. 이 결과를 통해 어댑터 유형과 적용 위치에 따른 설계가 TAD 모델의 성능 향상에 기여함을 확인하였다.
more초록 (요약문)
Performance improvement through the application of Temporal Informative Adapters at various positions in a Query-based Temporal Action Detection model Temporal Action Detection (TAD) is a technique for detecting temporally varying actions in videos, playing a crucial role in various fields such as video analysis, security, sports analytics, and movie content analysis. This study proposes a model based on a query-based detector to effectively detect actions occurring at each temporal point in a video. Unlike existing TAD models, the proposed method incorporates Plain Adapter and Temporal Informative Adapter (TIA) into the detector head. TIA is designed in four modes: Pre, Post, Intermediate, and Parallel, and its efficiency at various application positions is validated. This approach enables effective fine-tuning of the model while minimizing additional computational costs. Additionally, the feature extraction stage compares and evaluates 3D CNN-based and ViT-based models to select the optimal feature extraction method. The proposed model achieves a 2 percentage point improvement in mean Average Precision (mAP) compared to existing query-based detector models on the THUMOS14 dataset, setting a new state-of-the-art performance. These results demonstrate that the design of adapter types and application positions significantly contributes to the performance improvement of TAD models.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.2 논문의 구성 3
제 2 장 관련 연구 4
2.1 Temporal Action Detection 4
2.2 TadTR[18] 7
2.3 TE-TAD[14] 9
2.4 AdaTAD[15] 11
제 3 장 Adapter 적용을 통한 TAD모델 성능 개선 13
3.1 비디오 특징 추출 14
3.2 Adapter 적용을 통한 성능 개선 14
3.2.1 Query-based TAD 모델의 시간적 정보 활용 14
3.2.2 Adapter 를 이용한 detector head fine-tuning[16] 15
3.2.2.1 Adapter 유형 15
3.2.2.2 Adapter 적용 위치 16
제 4 장 실험 및 결과 20
4.1 실험 환경 20
4.2 데이터 셋 20
4.2.1 THUMOS14 데이터셋[22] 20
4.2.2 ActivityNet v1.3 데이터셋[25] 22
4.2.3 Epickitchens 데이터셋[26] 22
4.3 실험 내용 23
4.3.1 특징 추출 네트워크 변화에 대한 실험 23
4.3.3 평가 지표 24
4.4 결과 25
4.4.1 벤치마크 데이터셋[22, 25, 26]에 대한 학습 및 테스트 결과 25
4.4.2 Adapter 의 유형 및 적용 위치에 대한 성능 비교 30
4.4.3 특징 추출기 및 Transformer 활성화 함수에 대한 성능 비교 31
4.4.4 실험 결과 분석 33
제 5 장 결론 및 논의 사항 38
제 6 장 참고 문헌 39

