검색 상세

오디오 정보를 활용한 계층적 어텐션 트랜스포머 기반 영상물 자동 등급 분류

Hierarchical Attention Transformer-based Automatic Video Content Rating using Audio Information

초록 (요약문)

본 논문은 텍스트와 오디오 정보를 모두 활용하는 계층적 어텐션 트랜스포머를 이용한 영상물 자동 등급 분류 모델을 제안한다. 기존의 영상물 등급 분류 시스템은 주로 텍스트 기반 분석에 의존하여, 영상물의 청각적 정보를 반영하지 못하는 한계가 있다. 본 연구는 이러한 한계를 해결하기 위해 텍스트 및 오디오 정보를 통합한 자동 등급 분류 방법을 제시한다. 제안된 시스템은 두 단계로 구성된다. 첫 번째 단계에서는 발화 구간을 검출하고 음성 인식 결과를 생성하며, 전체 영상물에서 유해한 오디오 이벤트를 검출한다. 두 번째 단계에서는 인식된 대사와 오디오 이벤트 정보를 사용하여 계층적 어텐션 트랜스포머 모델을 통해 영상물 등급을 예측한다. 49편의 한국어 영화를 대상으로 한 실험에서, 본 자동 등급 분류 시스템은 기존의 텍스트 기반 모델에 비해 성능이 향상되었음을 확인하였다. 제안된 모델은 기존의 텍스트만을 사용하는 이전 연구 모델과 비교하였을 때, 성능 향상을 보였다. 자막과 오디오 이벤트를 결합한 경우 weighted f1-score가 0.61에서 0.82, 음성 인식과 오디오 이벤트를 결합한 경우 0.54에서 0.69의 성능을 달성하였다. 본 연구는 오디오 정보와 음성 인식을 결합한 자동 등급 분류 모델의 가능성을 입증하였으며, 이는 영상물 등급 분류에서 오디오 이벤트 결과의 영향을 확인하였다.

more

초록 (요약문)

This thesis proposes a hierarchical attention transformer model for automated video content rating that utilizes both textual and audio information. Traditional video content rating systems primarily rely on text-based analysis. As a result, these traditional systems fail to incorporate the auditory aspects of the content. To address this limitation, this thesis presents an automated video content rating method that integrates audio information with text information. The proposed system consists of two stages. In first stage, speech segments are detected, speech recognition results are generated, and harmful audio events are detected throughout the video. In second stage, the recognized dialogues and audio event information are used to predict the video rating through a hierarchical attention transformer model. Experiments on 49 Korean movies showed that the proposed automated rating classification system outperformed the existing text-based models. The proposed model achieved a significant performance improvement over previous models that only used text. When combining subtitles and audio events, the weighted f1-score increased from 0.61 to 0.82. Similarly, when combining speech recognition and audio events, the score improved from 0.54 to 0.69. This thesis demonstrates the potential of an automatic video content rating model that combines audio information and speech recognition, highlighting the impact of audio event results in video content rating.

more

목차

제 1 장 서론 3
1.1 영상물 등급 분류 3
1.1.1 영상물 등급 분류 체계 4
1.1.2 영상물에서 오디오 정보 5
1.2 기존 영상물 자동 등급 분류 6
1.2.1 계층적 어텐션 트랜스포머 7
1.3 오디오 정보를 활용한 계층적 어텐션 트랜스포머 기반 영상물 자동 등급 분류 8
1.4 논문 구성 9
제 2 장 관련 연구 10
2.1 영상물 자동 등급 분류 10
2.1.1 계층적 어텐션 트랜스포머 12
2.2 자동 음성 인식 16
2.3 오디오 이벤트 분류 17
제 3 장 오디오 정보를 활용한 계층적 어텐션 트랜스포머 기반 영상물 자동 등급 분류 19
3.1 계층적 어텐션 트랜스포머 기반 자동 등급 분류 20
3.1.1 토큰화 / 세그먼트화 21
3.1.2 계층적 어텐션 트랜스포머 기반 임베딩 22
3.1.3 다중 클래스 분류 23
3.2 자동 음성 인식 24
3.2.1 Whisper 모델 24
3.2.2 학습 데이터 전처리 25
3.2.3 Whisper 모델 파인 튜닝 및 deepspeed를 이용한 학습 최적화 26
3.3 오디오 이벤트 분류 27
3.3.1 EfficientAT 모델 27
3.3.2 태깅 데이터 분석 및 클래스 선정 28
3.3.3 학습 데이터 전처리 29
3.3.4 EfficientAT 모델 파인 튜닝 29
3.4 대사 및 오디오 이벤트 통합 30
제 4 장 실험 32
4.1 데이터셋 32
4.1.1 영화 데이터셋 32
4.1.2 음향 및 대사 태깅 데이터 32
4.1.3 모듈별 데이터셋 37
4.2 평가 지표 39
4.2.1 자동 등급 분류 39
4.2.2 자동 음성 인식 40
4.2.3 오디오 이벤트 분류 41
4.3 실험 모델 41
4.3.1 자동 등급 분류 41
4.3.2 자동 음성 인식 42
4.3.3 오디오 이벤트 분류 43
4.4 실험 환경 43
4.4.1 자동 등급 분류 43
4.4.2 자동 음성 인식 44
4.4.3 오디오 이벤트 분류 44
4.5 평가 방법 45
4.5.1 자동 등급 분류 45
4.5.2 자동 음성 인식 45
4.5.3 오디오 이벤트 분류 45
4.6 실험 결과 46
4.6.1 자동 등급 분류 46
4.6.2 자동 음성 인식 54
4.6.3 오디오 이벤트 분류 54
4.7 자동 등급 분류 결과 분석 54
4.7.1 모델 별 어텐션 분석 55
4.7.2 평가 데이터 별 어텐션 분석 63
제 5 장 결론 67
참 고 문 헌 69

more