멀티모달 융합 기반 영화 장르 예측 시스템 개발 및 성능 평가 : MM-IMDb 데이터셋을 활용한 연구
Multi-modal Movie Genre Prediction System Development and Performance Evaluation Using MM-IMDb Dataset
- 주제(키워드) 멀티모달 , 예측 시스템 , multi-modal , prediction system
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 박운상
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082223
- UCI I804:11029-000000082223
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
멀티레이블 영화 장르 분류는 텍스트와 이미지 등 다양한 정보를 종합적으로 해석해야 하는 복합 예측 문제이다. 영화 콘텐츠의 장르를 정확히 분류하기 위해서는 줄거리와 포스터 이미지처럼 서로 다른 모달리티 간의 의미를 통합하는 구조가 필요하다. 따라서 텍스트와 이미지를 동시에 분석할 수 있는 멀티모달 분류 모델의 개발이 중요하다. 최근에는 딥러닝 기반의 멀티모달 융합 전략을 통해 장르 예측의 정확도를 높이려는 연구가 활발히 진행되고 있다. 본 논문에서는 MM‑IMDb 데이터셋을 활용하여 영화 장르를 예측하는 멀티모달 분류 시스템을 분석 및 개발하고, 단일모달 모델과 다양한 융합 전략의 성능을 비교하였다. 실험은 텍스트 기반(BERT), 이미지 기반(ResNet50, ViT), 그리고 멀티모달 융합 기반(Early Fusion, Late Fusion, GMU, Cross-Attention Fusion) 모델을 대상으로 수행되었으며, F1-Score(Macro, Micro, Weighted, Samples)를 기준으로 평가하였다. 멀티레이블 설정에서 라벨 희소성과 불균형으로 인해 Accuracy는 과대평가되는 한계가 있으므로 평가 지표에서 제외하였다. 실험 결과, 텍스트 기반의 BERT 모델이 단일모달 환경에서 가장 높은 성능을 보였고, 멀티모달 융합 모델은 모든 경우에서 단일모달 대비 성능이 향상되었다. 특히 Cross-Attention Fusion 모델은 텍스트와 이미지 간의 의미적 정렬을 구조적으로 달성함으로써 가장 우수한 성능을 기록하였다. 본 연구는 멀티모달 융합 전략이 단일모달 접근의 한계를 극복하고, 구조적 설계 방식이 예측 성능 향상에 결정적 역할을 한다는 점을 실증적으로 보여준다.
more초록(요약문)
Multilabel movie genre classification is a complex prediction task requiring the integration of diverse information such as text and images. To accurately classify movie genres, models must combine meaning from different modalities, such as plot summaries and poster images. Therefore, developing multimodal classification models capable of analyzing both text and images is crucial. Recently, research has actively explored deep learning-based multimodal fusion strategies to improve genre prediction accuracy. This thesis analyze and develop a multimodal classification system for movie genre prediction using the MM-IMDb dataset and compares its performance with single-modal models and various fusion strategies. Experiments were conducted on text-based (BERT), image-based (ResNet50, ViT), and multimodal fusion-based (Early Fusion, Late Fusion, GMU, Cross-Attention Fusion) models, evaluated using F1-Score (Macro, Micro, Weighted, Samples). Accuracy was excluded as an evaluation metric due to label sparsity and imbalance in the multilabel setting. Experimental results show that the BERT model achieved the highest performance among single-modal approaches, while multimodal fusion models consistently outperformed single-modal models. Notably, the Cross-Attention Fusion model achieved the best results by structurally aligning semantic information between text and images. This study empirically demonstrates that multimodal fusion strategies overcome the limitations of single-modal approaches and that structural design plays a decisive role in improving prediction performance.
more목차
제 1 장 서론 1
제 1 절 연구 배경 2
제 2 절 연구 목표 3
제 3 절 논문 구성 4
제 2 장 관련 연구 5
제 1 절 선행연구 5
제 2 절 멀티모달 영화 장르 예측과 MM-IMDb 데이터셋 6
제 3 절 멀티모달 융합 전략 6
제 4 절 ViT (Vision Transformer)와 ResNet50 8
제 5 절 BERT 및 RoBERTa 9
제 3 장 연구 방법론 10
제 1 절 제안하는 방법 10
(1) 연구 개요 10
(2) 데이터 개요 및 설명 10
(3) 데이터 특성 12
(4) 데이터 특성 14
(5) 모델 적용 방법 15
제 2 절 모델 학습 설정 17
제 3 절 모델 성능 평가 지표 18
제 4 절 연구 방법론 정리 22
제 4 장 분석 결과 23
제 1 절 단일모달 모델의 성능 비교 23
제 2 절 멀티모달 융합 모델의 성능 분석 25
제 3 절 성능 향상 분석 29
제 4 절 결과 요약 및 논의 31
제 5 장 결 론 32
제 1 절 연구 요약 및 주요 결과 32
제 2 절 시사점 33
제 3 절 연구 한계 및 향후 연구 방향 34
제 4 절 종합 결론 35
제 6 장 참 고 문 헌 36

