게임 리뷰 데이터와 플레이 데이터를 활용한 유저 이탈 예측 모델 연구
A Study on User Churn Prediction Using Game Review Data and Play Data
- 주제어 (키워드) 게임 , 스팀 , 유저이탈 , 예측 , 리뷰 , 멀티모달 , Game , Steam , User Churn , Prediction , Review , Multi modal
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 정성원
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000081831
- UCI I804:11029-000000081831
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
게임에서 유저의 수는 게임의 수익과 미래 지속 가능성에 직접적인 영향을 미치기 때문에, 게임 운영사 입장에서 유저 이탈은 중요한 문제로 여겨진다. 기존의 유저 이탈 예측 연구는 게임 내에서 유저가 남기는 로그 데이터 및 결제 이력 등의 수치기반의 정형 데이터를 중심으로 이루어져 왔다. 이러한 정형 데이터는 유저의 행동을 정량적으로 설명하는 데는 효과적이지만, 유저가 게임을 어떻게 느끼고 있는지, 혹은 얼마나 만족하며 플레이를 하고 있는지를 설명하기에는 한계가 존재한다. 본 연구는 유저가 작성한 텍스트 형태의 리뷰 데이터(이하 리뷰 데이터)와 수치 형태의 플레이 데이터(이하 플레이 데이터)를 함께 활용하여 이탈 여부를 예측하고자 하며, 다음 두 가지 목적을 중심으로 연구를 진행하였다. 먼저 리뷰 데이터만을 활용한 모델과, 리뷰 데이터에 플레이 데이터를 결합한 모델 간의 성능 차이를 분석하여 정형-비정형 데이터 융합의 실효성을 검증하고자 한다. 또한, 리뷰 데이터에 노이즈 제거 및 긴 리뷰 요약 진행 등의 텍스트 전처리 과정을 적용했을 때, 그렇지 않은 원문 텍스트 대비 예측 모델의 성능이 어떻게 달라지는지를 비교한다. 연구에 사용한 데이터는 Steam 플랫폼을 통해 수집한 실제 유저 리뷰와 플레이 데이터이다. 리뷰 데이터는 텍스트 임베딩을 진행한 후, 텍스트 피처로 모델 입력으로 구성하였으며, 추가적으로 텍스트 데이터에서 감정 분류를 수행하여 감정정보를 추출하였다. 이후 감정정보와 정규화 된 플레이 데이터와 결합하여 수치형 피처로 구성하여 모델의 입력으로 사용하였다. 실험은 텍스트 전처리 여부에 따라 총 네 가지 모델을 대상으로 수행되었다. 텍스트 전처리를 적용하지 않은 텍스트 단독 모델(Text-Only)과 텍스트–플레이 데이터 융합 모델(Text + Numeric)을 베이스라인으로 설정하고, 이에 각각 텍스트 전처리를 적용한 모델을 비교 대상으로 구성하였다. 설계된 네 가지 모델은 동일한 조건에서 학습 및 평가되었으며, 이를 통해 텍스트 전처리의 적용 여부가 유저 이탈 예측 성능에 미치는 영향을 Accuracy, F1 Score, Precision, Recall 을 기준으로 정량적으로 분석하였다. 실험 결과, Text + Numeric 모델은 Text-Only 모델 대비 모든 지표에서 우수한 성능을 나타냈다. 또한, 텍스트 전처리를 진행한 리뷰 데이터를 활용한 모델이 원문 텍스트 기반 모델보다 높은 예측 성능을 보였다. 이를 통해 유저 이탈 예측 문제에 있어 단순히 데이터를 많이 활용하는 것을 넘어, 다양한 형식의 데이터를 어떻게 가공하고 조합하는지에 대한 중요성을 보여준다. 본 연구는 텍스트 전처리의 유의미한 효과와, 정형-비정형 데이터 융합의 가능성을 실증적으로 보여주었으며, 앞으로는 게임 장르별 특성 분석이나 내부 로그 데이터와의 연계를 통해 보다 정밀한 예측 모델로 확장될 수 있을 것으로 기대된다.
more초록 (요약문)
The number of users in a game is directly linked to its profitability and long-term sustainability, making user churn a critical issue for game operators. Traditionally, research on user churn prediction has relied heavily on structured data such as in-game logs and purchase history. While such structured data effectively quantifies user behavior, it falls short in capturing users’ emotional engagement or satisfaction with the game. This study aims to predict user churn by integrating two types of data: user-generated text reviews (referred to as "review data") and numerical gameplay statistics (referred to as "play data"). The research is centered around two key objectives. First, we analyze the performance gap between models trained solely on review data and those incorporating both review and play data to evaluate the effectiveness of fusing structured and unstructured data. Second, we assess how text preprocessing—including noise removal and summarization for lengthy reviews—impacts model performance compared to using raw review text. The dataset comprises real user reviews and play data collected from the Steam platform. Review texts were vectorized using text embedding methods and used as model inputs. Additionally, sentiment classification was performed on the reviews to extract emotional features. These sentiment features were then combined with normalized play data to construct the final numerical input vectors for the model. Experiments were conducted using four types of models: Text-Only and Text + Numeric models, both with and without text preprocessing. Each model was evaluated under identical conditions using standard classification metrics: Accuracy, F1 Score, Precision, and Recall. The results showed that Text + Numeric models outperformed Text- Only models across all evaluation metrics. Furthermore, models that incorporated preprocessed review data achieved better predictive performance than those using raw text. These findings highlight that effective user churn prediction requires not just more data, but thoughtful processing and fusion of diverse data formats. This study empirically demonstrates the value of text preprocessing and multimodal data integration, suggesting future directions for more refined churn prediction models through genre-specific analysis and integration with internal gameplay logs.
more목차
제1장 서론 1
제1절 연구의 배경 1
제2절 연구 목적 3
제3절 논문 구성 4
제2장 관련 연구 6
제1절 유저 이탈 예측 연구 동향 6
제2절 리뷰 텍스트 전처리 및 감정 분석 연구 7
제3절 Gated Mechanism 기반 데이터 융합 연구 9
제4절 본 연구의 차별성 10
제3장 연구 방법 12
제1절 데이터 수집 및 구성 12
제2절 데이터 전처리 14
(1) 리뷰 데이터 노이즈 제거 14
(2) 리뷰 데이터 요약 15
(3) 감정 분류 및 피처 추가 16
(4) 수치형 데이터 정제 및 정규화 17
제3절 유저 이탈 예측 모델 설계 18
(1) 입력 벡터 구성 19
(2) Gated Mechanism 기반 멀티모달 데이터 융합 19
(3) 이탈 여부 분류기 설계 21
제4절 실험 설정 및 평가 지표 21
(1) 데이터셋 구성 22
(2) 학습 조건 및 하이퍼파라미터 24
(3) 모델 비교 방식 24
제4장 실험 및 결과 분석 26
제1절 텍스트 전처리 미적용 모델 성능 비교 26
제2절 텍스트 전처리 적용 모델 성능 비교 26
제3절 텍스트 전처리 적용 전/후 성능 변화 27
제4절 Gate 값 분석 및 해석. 28
제5절 Confusion Matrix 기반 오류 분석 29
제5장 결론 30
참고문헌 33

