검색 상세

텍스트 계층적 어텐션 트랜스포머와 오디오 사전학습 모델의 융합을 활용한 영상물 등급 분류

Integration of Text Hierarchical Attention Transformers and Audio Pre-trained Models for Video Content Rating

초록 (요약문)

본 논문은 영상물 등급 분류의 정확성과 효율성을 개선하기 위해 텍스트와 오디오 정보를 융합한 멀티모달 접근법을 제안한다. 기존의 등급 분류 모델은 주로 텍스트 데이터에 의존하여 오디오 정보를 반영하지 못하는 한계가 있었다. 이를 해결하기 위해 본 연구는 텍스트 계층적 어텐션 트랜스포머를 중심으로, 사전학습된 모델을 활용하여 오디오에서 추출한 감정 분류와 오디오 이벤트 탐지 정보를 결합한 모델을 설계하였다. 특히, 감정 분류와 사운드 이벤트 탐지 모듈은 각각 emotion2vec와 EfficientAT 같은 사전학습 모델을 기반으로 구성되어, 파인 튜닝을 통해 영상물 데이터에 최적화되었다. 또한 동적 청킹 기법과 Task Adaptive Pre-Training(TAPT)을 적용하여 텍스트 처리 성능을 개선하였다. 실험 결과, 제안된 모델은 기존 영상물 등급 분류 모델인 계층적 트랜스포머 모델 대비 Weighted F1 Score를 0.60에서 0.79로, Quadratic Weighted Kappa(QWK)를 0.77에서 0.91로 향상시키며 텍스트와 오디오 정보의 융합이 영상물 등급 분류 성능 향상에 효과적임을 입증하였다. 또한, 본 연구에서 제안한 모듈 간 결합 방식은 새로운 모달리티를 추가적으로 확장할 수 있는 유연성을 제공하며, 사전학습된 비주얼 모델이나 행동 탐지 모델과 같은 다른 모달리티의 통합도 가능하다. 이를 통해 텍스트, 오디오뿐만 아니라 시각 및 행동 데이터를 포함한 복합 멀티모달 분석 시스템으로 확장할 수 있는 가능성을 열었다. 본 연구는 영상물 등급 분류의 정확도를 높이고, 다양한 모달리티를 통합하는 멀티모달 접근법을 제시함으로써, 향후 다양한 도메인에서의 활용 가능성을 기대하게 한다.

more

초록 (요약문)

In this thesis, a multimodal approach that integrates text and audio information is proposed to enhance the accuracy and efficiency of video content rating. Existing video content rating models have primarily relied on text data, failing to incorporate audio information, which limits their ability to capture essential contextual cues. To address this limitation, a model is designed by combining emotion classification and audio event detection information extracted from audio into an architecture built around a Text Hierarchical Attention Transformer (THAT) and utilizing pre-trained models. Specifically, emotion classification and sound event detection modules are derived from pre-trained models such as emotion2vec and EfficientAT, respectively, and fine-tuned for optimal performance on video content data. Additionally, dynamic chunking and Task Adaptive Pre-Training (TAPT) techniques are applied to improve text processing capabilities. The experimental results demonstrate that the proposed model outperformed the existing hierarchical transformer-based video content rating model, improving the Weighted F1 Score from 0.60 to 0.79 and the Quadratic Weighted Kappa (QWK) from 0.77 to 0.91. These results validate the effectiveness of integrating text and audio information in enhancing classification performance. Furthermore, the architecture proposed in this study is designed to effectively integrate pre-trained models, enabling the addition of new modalities such as visual models, action detection models, and others. This adaptability opens the possibility of evolving the system into a comprehensive multimodal analysis architecture that includes not only text and audio but also visual and behavioral data. This research introduces a novel multimodal approach that improves the accuracy of video content rating classification and highlights its potential for application across various domains by incorporating diverse modalities.

more

목차

제 1 장 서론 1
1.1 영상물 등급 분류 1
1.2 기존 자동 영상물 등급 분류 및 멀티모달 분류 2
1.3 논문 구성 4
제 2 장 관련 연구 6
2.1 영상물 등급 분류 6
2.2 텍스트 계층적 어텐션 트랜스포머 7
2.3 멀티모달 접근법을 활용한 데이터 분석 및 분류 8
2.4 오디오 사전학습 모델 10
2.4.1 오디오 이벤트 탐지 10
2.4.2 감정 분류 11
제 3 장 텍스트 계층적 어텐션 트랜스포머와 오디오 사전학습 모델의 융합을 활용한 영상물 등급 분류 12
3.1 텍스트 계층적 어텐션 트랜스포머 13
3.1.1 세그먼트화 13
3.1.2 인코딩 14
3.1.3 Task Adaptive Pre-Training 15
3.2 오디오 사전학습 모델 16
3.2.1 오디오 이벤트 탐지 16
3.2.2 감정 분류 18
3.3 텍스트와 오디오 모달리티 융합을 통한 영상물 등급 분류 20
제 4 장 실험 22
4.1 데이터셋 22
4.1.1 영화 데이터셋 22
4.1.2 태깅 데이터셋 22
4.1.3 모듈별 데이터셋 23
4.2 평가 지표 26
4.2.1 mean Average Precision 26
4.2.2 Weighted F1 score 27
4.2.3 Quadratic Weighted Kappa 29
4.3 실험 환경 29
4.3.1 오디오 이벤트 탐지 29
4.3.2 감정 분류 30
4.3.3 영상물 등급 분류 30
4.4 실험 방법 30
4.4.1 오디오 이벤트 탐지 30
4.4.2 감정 분류 30
4.4.3 영상물 등급 분류 31
4.5 실험 결과 및 분석 32
4.5.1 오디오 이벤트 탐지 32
4.5.2 감정 분류 33
4.5.3 영상물 등급 분류 34
제 5 장 결론 42
참고문헌 44

more