그래프 신경망 기반 추천시스템에서 롱테일 아이템 표현 학습 강화를 위한 테일 인식 샘플링 기법 연구
Tail-Aware Sampling for Enhanced Representation Learning of Long-Tail Items in Graph Neural Network-Based Recommender Systems
- 주제(키워드) Recommender system , tail-aware sampling , long-tail , Degree Centrality , Betweenness Centrality , 추천 시스템 , 테일 인식 샘플링 , 롱테일 , 차수 중심도 , 매개 중심도
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 문의현
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082295
- UCI I804:11029-000000082295
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
본 연구는 추천 시스템에서 구조적 희소성과 편중된 상호작용 분포로 인해 발생하는 롱테일 아 이템의 학습 부족 문제를 해결하고자, 중심성 기반 테일 인식 샘플링 전략을 제안한다. 기존 균 일 부정 샘플링 방식은 대부분의 부정 후보가 상위 인기 아이템에 집중되는 구조적 편향을 지니 며, 이에 따라 상호작용이 없는 아이템의 표현 학습이 충분히 이루어지지 못하는 한계가 존재한 다. 본 연구는 사용자-아이템 그래프에서 Degree Centrality(DC)와 Betweenness Centrality(BC)를 계 산하고, 중심성이 낮은 아이템에 더 높은 샘플링 확률을 부여함으로써, 테일 아이템의 학습 기회 를 강화한다. 나아가, 균일 샘플링과 중심성 기반 샘플링을 혼합한 하이브리드 방식을 도입하여 두 접근 방법의 효과를 검증한다. LightGCN과 BPR Loss 기반의 실험 결과, 제안한 전략은 기존 방법 대비 롱테일 아이템 추천 성능과 전체 추천 품질을 모두 향상시키는 것으로 나타났다. 특히 Gowalla 데이터에서는 전체 성능이 2~25% 향상되었고 테일 관련 성능의 경우에는 기준 성능이 매 우 낮은 지표에서는 상대적으로 최대 약 200%의 개선이 관찰되었다. 그리고 균일 샘플링과 DC와 BC를 혼합한 하이브리드 샘플링에서 가장 우수한 성능을 보인다. 반면, Animation 데이터에서는 DC 기반 샘플링 방식에서만 성능 개선이 관찰되었으며, BC 기반 샘플링에서는 유의미한 효과를 확인할 수 없었다. 이는 일부 허브 노드에 영향력이 집중되는 구조적 특성 때문이며, 제안 방법 의 성능이 데이터셋 특성에 따라 달라질 수 있음을 시사한다. 키워드: 추천 시스템, 테일 인식 샘플링, 롱테일, 차수 중심도, 매개 중심도
more초록(요약문)
This study addresses the insufficient learning of long-tail items in recommender systems, caused by structural sparsity and skewed interaction distributions, by proposing a centrality-based Tail-Aware sampling strategy. Conventional uniform negative sampling is biased toward popular items, limiting the learning of items with no interactions. This approach calculates Degree Centrality(DC) and Betweenness Centrality(BC) in the user– item graph and assigns higher sampling probabilities to items with lower centrality, thereby enhancing the learning opportunities for long-tail items. Furthermore, we introduce a hybrid method combining uniform and centrality-based sampling to evaluate the effectiveness of both approaches. Experimental results using LightGCN with BPR loss demonstrate that the proposed strategy improves both long-tail item recommendation and overall recommendation quality. On the Gowalla dataset, overall performance increased by 20–25%, while tail-related metrics showed relative improvements ranging from 20% to 200%, with the hybrid DC–BC sampling achieving the best results, particularly in scenarios with sparse tail interactions. In contrast, for the Animation dataset, only DC-based sampling yielded performance gains, while BC-based sampling was ineffective due to the concentration of influence in a few hub nodes, indicating dataset-dependent limitations. Keywords: Recommender system, tail-aware sampling, long-tail, Degree Centrality, Betweenness Centrality
more목차
제 1 장 서론 1
제 2 장 이론적 배경 및 관련연구 3
제 1 절 추천시스템 3
제 2 절 추천시스템의 발전과정 3
제 3 절 그래프 신경망(GNN)의 등장 배경 4
제 4 절 NGCF 6
제 5 절 LightGCN 7
제 6 절 롱테일(Long-tail) 9
제 7 절 네트워크 중심도 11
제 3 장 관련 연구 13
제 1 절 추천시스템에서 롱테일 아이템에 대한 연구 13
제 2 절 Betweenness Centrality 관련 연구 14
제 3 절 부정 샘플링 관련 연구 15
제 4 장 연구동기 17
제 5 장 연구 방법론 19
제 1 절 차수(Degree), 매개(Betweenness Centrality) 중심도 20
제 2 절 중심도 지표를 이용한 샘플링 및 부정 샘플링 방법 22
제 6 장 실험환경 및 데이터 25
제 1 절 실험 환경 25
제 2 절 사용한 데이터 25
제 3 절 성능 평가 지표 28
제 4 절 실험 결과 29
제 7 장 결론 40
참고문헌 41

