검색 상세

줄거리 임베딩 결합을 통한 LightGCN 기반 영화 추천 시스템의 성능 향상 연구

Improving LightGCN-based Movie Recommendation Performance via Plot Embedding Integration

초록(요약문)

온라인 스트리밍 플랫폼의 확대로 영화 추천 시스템의 중요성이 커지고 있다. 그래프 신경망(GNN) 기반 추천 모델은 사용자-영화 상호작용을 효과적으로 모델링하지만, ID 기반 임베딩만으로는 영화의 콘텐츠 특성을 충분히 반영하지 못한다는 한계가 있다. 본 연구는 영화의 줄거리 텍스트를 최신 언어 모델인 Qwen3-Embedding- 4B 로 인코딩하여, LightGCN 모델의 초기 노드 특징으로 활용하는 하이브리드 추천 방법론을 제안한다. MovieLens 100k 평점 데이터와 TMDB 줄거리 데이터를 결합하여 1,470 편의 영화에 대한 통합 데이터셋을 구축하였으며, 다양한 학습 데이터 조건(20%, 40%, 60%, 80%, 100%)에서 제안 모델의 효과를 검증하였다. 실험 결과, 줄거리 임베딩을 결합한 제안 모델은 모든 실험 조건에서 베이스라인 LightGCN 대비 일관된 성능 향상을 보였다. Recall@20 기준 평균 22.07%의 성능 개선을 달성하였으며, 전체 데이터를 사용한 경우 최대 30.20%의 향상을 기록했다. 또한 MRR@20 지표에서 평균 17.79%개선되어, 추천 순위의 품질도 향상되었음을 확인했다. 본 연구는 협업 필터링과 콘텐츠 기반 필터링을 효과적으로 결합하는 구체적 방법론을 제시하며, 텍스트 임베딩이 그래프 신경망 추천 시스템의 성능을 유의미하게 향상시킬 수 있음을 입증했다.

more

초록(요약문)

With the rapid expansion of online streaming platforms, the importance of movie recommendation systems has increased. Graph Neural Network (GNN)-based recommendation models effectively capture user–item interactions, but they are limited in that ID-based embeddings alone cannot sufficiently reflect the content characteristics of movies. In this study, we propose a hybrid recommendation approach that encodes movie plot texts using Qwen3-Embedding-4B, a state-of-the- art language model, and utilizes these embeddings as initial node features in a LightGCN model. We construct an integrated dataset of 1,470 movies by combining MovieLens 100k rating data with TMDB plot data, and evaluate the effectiveness of the proposed model under various training data conditions (20%, 40%, 60%, 80%, 100%). Experimental results show that the proposed model with plot embeddings consistently outperforms the baseline LightGCN in all settings. In terms of Recall@20, it achieves an average performance improvement of 22.07% and up to 30.20% when using the full dataset. In addition, MRR@20 improves by an average of 17.79%, indicating enhanced quality of the recommendation ranking. This study presents a concrete method for effectively combining collaborative filtering with content-based filtering and empirically demonstrates that text embeddings can significantly improve the performance of graph neural network–based recommendation systems.

more

목차

그림 및 표 차례 8
Abstract 9
초록 10
1. 서론 11
1.1. 연구 배경 11
1.2. 연구 필요성, 목적 및 기여 12
2. 관련 연구 14
2.1. 추천 시스템 14
2.1.1. 협업 필터링(CF) 14
2.1.2. 콘텐츠 기반 필터링(CBF) 15
2.1.3. 하이브리드 추천 시스템 15
2.2. 그래프 신경망(GNN) 기반 추천시스템 15
2.2.1. NGCF (Neural Graph Collaborative Filtering) 16
2.2.2. LightGCN (Light Graph Convolution Network) 16
2.3. 텍스트 정보를 활용한 추천 시스템 16
2.3.1. 전통적 텍스트 기반 추천 연구 16
2.3.2. Transformer 기반 모델 17
2.3.3. Qwen3-Embedding-4B 17
3. 제안 방법론 19
3.1. 데이터 수집 및 통합 19
3.1.1. MovieLens 100k 19
3.1.2. TMDB 줄거리 데이터 수집 19
3.2. 데이터 전처리 20
3.2.1. k-core 필터링 20
3.2.2. 시간 기반 데이터 분할 (Leave-One-Out) 20
3.2.3. ID매핑 20
3.3. 줄거리 임베딩 생성 21
3.3.1. 텍스트 전처리 21
3.3.2. 임베딩 추출 21
3.4. 제안 모델: 줄거리 임베딩을 결합한 LightGCN 21
3.4.1. 초기 임베딩 구성 22
3.4.2. Fusion Layer 설계 23
3.4.3. LightGCN 메시지 전달 구조 25
3.4.4. 학습 목표: BPR Loss 25
3.5. 학습 과정 27
3.5.1. 하이퍼파라미터 27
3.5.2. 학습 절차 27
3.5.3. 평가 방식 28
4. 실험 28
4.1. 실험 환경 28
4.1.1. 데이터셋 28
4.1.2. 비교 모델 29
4.1.3. 평가 지표 30
4.1.4. 구현 및 하드웨어 환경 31
4.2. 실험 설계 31
4.2.1. 학습 데이터 비율에 따른 성능 평가 31
4.2.2. 학습 설정 32
4.2.3. 통계적 유의성 검증 33
4.3. 실험 결과 34
4.3.1. 정량적 성능 비교 34
4.3.2. 학습 데이터 양에 따른 패턴 분석 34
4.3.3. 통계적 유의성 분석 35
4.3.4. Fusion 구조에 대한 Ablation Study 35
4.4. 줄거리 임베딩 효과에 대한 심층 분석 36
5. 결론 38
5.1. 연구 요약 및 의의 38
5.2. 연구의 한계 39
5.3. 향후 연구 방향 40
참고 문헌 43

more