Q러닝을 활용한 최적의 마케팅 개입 시퀀스 예측 모형
What Is The Next Best Action?
- 주제어 (키워드) 소비자 의사결정 과정 , CDP , 강화학습 , Q 러닝 , 마르코프 결정 과정 , FQI , XGBoost , 최적 마케팅 시퀀스 , Customer Decision Making Process , CDP , Reinforcement Learning , Q- learning , Markov Decision Process , Fitted Q Iteration (FQI) , XGBoost , Optimal Marketing Sequence
- 발행기관 서강대학교 일반대학원
- 지도교수 김주영
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 경영학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079583
- UCI I804:11029-000000079583
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Q 러닝을 활용한 최적의 마케팅 개입 시퀀스 예측 모형 본 연구는 Grid Dynamics 사에서 제공하는 ‘강화 학습을 사용하여 최상의 차선책 행동 모델 구축’ 자료를 이용하여 고객 개인별 최적의 마케팅 경로를 예측하는 예측 모형을 제안하고자 한다. 예측 모델을 구축하기 위해 강화학습 기법의 XGBoost 모델을 활용한 Q- learning 을 사용하여 개인화된 최적의 마케팅 정책을 학습하도록 했으며 이를 optima path 로 시각화하고자 했다. Q-learning 환경에서 에이전트가 되는 기업이 취할 수 있는 마케팅을 개입으로 보고 SNS 마케팅, 인플루언서 마케팅, 팝업 스토어, 티비 광고를 취했을 때 소비자의 반응인 비구매, 참여, 구매 중 구매로 이어질 수 있는 최적의 정책을 구할 수 있도록 환경을 설정했다. 고객의 상태인 나이와 로열티에 따라 각 개입들이 각 반응들에 미칠 수 있는 확률을 임의로 조작하였으며 이를 실용재와 쾌락재를 기준으로 두가지 버전의 예측 모형을 만들어 결과 값이 제대로 작동하는지 확인하고자 했다. 임의 데이터를 각 상태-행동 쌍에 대한 예상 보상을 예측하고 ε -탐욕적(epsilon- greedy) 접근 방식을 적용해 모델의 적응력과 탐색을 강화시켰다. 이를 통해 최적의 마케팅 정책을 선택하면서도 일정 확률로 새로운 정책을 탐색할 수록 있도록 했다. 연구 결과, 연구 모델이 기대 보상인 Q 값을 극대화하는 개입들을 효과적으로 식별할 수 있었고 각 마케팅 개입은 현재 상태와 이전 상호작용을 바탕으로 선택되었다. 이는 본 연구에서 궁극적으로 도달하고자 하는 소비자의 구매 반응 가능성을 높이는 동시에 특정 고객 군에 대해 어떤 개입이 효과적인지에 대한 인사이트를 제공한다. 뿐만 아니라 이를 최적화 경로(optimal path)로 시각화하여 소비자가 구매까지 도달하기 위한 일종의 개인화된 고객 여정을 확인할 수 있다. 이러한 점으로 보아 본 연구는 강화학습과 개인화 마케팅 분야에서 고객 최적화를 위한 순차적 의사결정 모델의 실용적인 적용 가능성을 제시한다.
more초록 (요약문)
The Next Best Action in Digital Marketing by Using Q-learning This study aims to propose a predictive model to forecast optimal marketing paths tailored to individual customers by leveraging data from Grid Dynamics on "Building Optimal Behavioral Models Using Reinforcement Learning." To build the predictive model, Q-learning was employed using the XGBoost model, a reinforcement learning technique, to train personalized optimal marketing policies. The goal was to visualize these policies as optimal paths. In the Q-learning environment, marketing actions that the agent(company) could take were defined as interventions, including SNS marketing, influencer marketing, pop-up stores, and TV advertising. The consumer's reactions to these interventions were categorized as non-purchase, engagement, or purchase. The model was designed to identify the optimal policy leading to purchases. The probabilities of how each intervention impacts each type of reaction were artificially manipulated based on the customer states—age and loyalty. Two versions of the predictive model were created, one for utilitarian goods and the other for hedonic goods, to verify the proper functioning of the results. Simulated data was used to predict expected rewards for each state-action pair, and an epsilon-greedy approach was applied to enhance the model's adaptability and exploration. This approach allowed the selection of optimal marketing policies while also ensuring a certain probability of exploring new strategies. The results demonstrated that the proposed model effectively identified interventions that maximize the expected rewards, or Q-values. Each marketing intervention was selected based on the current state and previous interactions, ultimately providing insights into which interventions were most effective for specific customer segments. Additionally, these insights were visualized as optimal paths, offering a personalized customer journey toward purchase decisions. This study highlights the practical applicability of sequential decision-making models for customer optimization in the fields of reinforcement learning and personalized marketing.
more목차
1 Introduction 11
1.1 Research Background 11
1.2 Research Purpose 12
2 Theoretical background 14
2.0 Literature Review 14
2.1 Customer Decision Journey (CDJ) 18
2.2 Reinforcement Learning 19
2.3 Markov Decision Process (MDP) 20
2.4 Bellman Equation 22
2.5 Q-Learning 23
2.6 Fitted Q Iteration (FQI) 25
2.7 XGBoost (Extreme Gradient Boosting) 26
2.8 t-SNE (T-distributed Stochastic Neighbor Embedding) 31
3 Study 34
3.1 Research Design 34
3.2 Data Generation 39
3.3 Reinforcement Learning Model 41
3.4 Validation of Reinforcement Learning Model 44
3.5 Study 1 46
3.6 Study 2 59
4 General Discussion 63
5 Limitations and Future Research 66
6 References 68