검색 상세

프롬프트 정보량에 따른 LLM 기반 추천시스템 성능 비교 연구

A Comparative Study on the Performance of LLM-based Recommender Systems Conditional on Information Volume

초록 (요약문)

초록 본 연구는 대형언어모델을 활용한 추천 (Large Language Model, LLM) 시스템에서 프롬프트 정보량 구성 방식이 추천 성능에 미치는 영향을 정량적으로 분석하고자 했다 이를 위해 대표적인 공개 추천 데이터셋인 MovieLens 100K , (LightFM) 를 기반으로 기존 협업필터링 모델 을 활용하여 사용자별 추천 후보군을 생성한 뒤 이를 입력 프롬프트로 활용하여 Top-20 , LLM(GPT-3.5 Turbo, GPT-4o) Top-5 이 최종 추천 결과를 재정렬(Re-ranking) . 하도록 실험을 설계했다. 프롬프트는 포함되는 정보량에 따라 총 5단계(Level 1~5)로 구성되었으며, 각 프롬프트에 대해 Precision@5, Recall@5, NDCG@5 지표를 기준으로 추천 성능을 비교했다. 실험 결과 사용자 선호 영화 정보를 포함한 Level 3 프롬프트가 가장 우수한 성능을 보였으며, 정보가 과도하게 포함된 Level 5에서는 오히려 성능이 정체되거나 소폭 하락하는 현상이 관찰되었다. 또한 GPT-4o는 GPT-3.5에 비해 후처리 필요비율이 현저히 낮아(2.41%), 운영 효율성 측면에서 실용성이 높은 것으로 분석됐다. 본 연구는 LLM 기반 추천시스템에서 프롬프트 구성 전략이 추천 성능에 실질적인 영향을 미친다는 점을 실증적으로 제시하였으며, 향후 LLM-RS를 효과적으로 운영하기 위한 프롬프트 설계 기준 마련에 기여할 수 있다. 주요어: 추천시스템, 대형언어모델, 프롬프트 엔지니어링, Re-ranking, LLM 기반 추천시스템, GPT-4o, 정보량 민감도

more

초록 (요약문)

ABSTRACT This study aims to quantitatively analyze the impact of prompt information volume on recommendation performance in large language model-based recommender systems (LLM-RS). To this end, we employed the widely used public dataset, MovieLens 100K, and designed an experiment where a traditional collaborative filtering model (LightFM) first generates a Top-20 candidate list for each user. The generated candidate set is then re-ranked by LLMs (GPT-3.5 Turbo and GPT-4o) to produce a final Top-5 recommendation output. The prompts were constructed at five different levels (Level 1 to 5), depending on the amount of included information such as user profiles and past preferences. Recommendation performance was evaluated using Precision@5, Recall@5, and NDCG@5 metrics. The results show that Level 3, which includes the user’s recent preferred movies, consistently yielded the best performance, while Level 5, which includes excessive information, showed stagnation or slight degradation in performance. Additionally, GPT-4o required significantly fewer post-processing corrections (2.41%) compared to GPT-3.5, indicating its superior operational robustness. This study empirically demonstrates that prompt design plays a crucial role in the performance of LLM-based recommender systems, and provides practical insights for developing more effective prompt strategies in future LLM-RS applications. Keywords: recommender system, large language model, prompt engineering, re-ranking, LLM-based recommendation, GPT-4o, information sensitivity

more

목차

제1장 서론
제1절 연구배경: 11p
제2절 연구목적: 13p

제2장 이론적 배경
제1절 추천시스템: 14p
(1) 추천시스템 개요: 14p
(2) 추천시스템 종류: 14p
(가) 콘텐츠필터링: 14p
(나) 협업필터링: 16p
(다) 하이브리드 필터링: 19p
(3) 추천시스템 성능평가지표: 20p
(가) 평점예측 성능평가지표: 20p
(나) 순위기반 성능평가지표: 21p
제2절 LLM 기반 추천시스템: 23p
(1) LLM 기반 추천시스템 개요: 23p
(2) LLM 기반 추천시스템 종류: 24p
(가) LLM Embeddings + RS: 24p
(나) LLM Tokens + RS: 24p
(다) LLM as RS: 25p
(3) LLM 기반 추천시스템 학습방식 분류: 25p
(가) Non-Tuning: 26p
(나) Tuning: 26p
제3절 시사점: 27p

제3장 선행연구: 29p

제4장 연구설계: 31p
제1절 성능비교 연구 절차: 31p
제2절 데이터셋 구성 및 전처리: 33p
(1) 데이터셋 구성: 33p
(2) 데이터 전처리: 34p
제3절 프롬프트 정보량 단계별 구성: 35p
제4절 평가지표 및 성능측정 방법: 37p

제5장 연구결과 및 분석: 39p
제1절 프롬프트 정보량에 따른 추천성능 분석: 39p
제2절 LLM 모델 간 성능 비교: 41p
제3절 후처리 유무에 따른 성능 차이 분석: 42p
제4절 분석요약 및 시사점: 43p

제6장 결론: 45p

more