검색 상세

다양한 kNN 기반 언더샘플링 기법을 활용한 
배달앱 내 외식업체의 이탈 예측 모델 성능 분석 연구

Analysis on Restaurant Churn Prediction Model
in Food Delivery Industry using under-sampling methods based on kNN algorithm

초록 (요약문)

음식 배달 서비스 플랫폼(이하 배달앱)은 온라인 소비의 증가와 코로나로 인한 외식문화의 변화로 인해 최근 급성장했고, 성장세에 비례해 외식업체에 대한 많은 양의 데이터가 양산되고 있다. 본 연구의 목적은 데이터 마이닝을 통해 외식업체 행동 패턴을 분석하고 이탈을 예측함으로써 배달앱 서비스 품질 개선과 안정화에 기여하는 데 있다. 특히 이탈 예측 모델 성능 개선을 위해서 데이터 불균형 문제를 해결하고 모델 예측 성능을 향상시키기 위한 기법을 탐구한다. 기계학습 분야에서 분류 문제를 위한 알고리즘은 이른 시기 발달한 알고리즘 중 하나이다. 그러나 전통적인 분류 모델은 클래스 분포가 불균형한 실제 데이터를 사용해 학습될 때 쉽게 한계를 드러낸다. 본 연구에서는 외식업체 이탈 데이터의 불균형 문제를 해결하기 위해 다양한 kNN 기반 언더샘플링 기법을 실험하고, 랜덤포레스트와 XGBoost 모델을 사용한 예측 결과를 분석한다. 모델의 효용성과 성능 개선 효과를 확인하기 위해서는 원본 데이터셋과 무작위 언더샘플링, kNN 기반 언더샘플링 기법을 적용한 데이터셋에 대한 모델 결과를 비교분석한다.

more

초록 (요약문)

Food delivery platforms, commonly referred to as delivery apps, have experienced rapid growth due to the surge in online consumption and shifting in dining habits driven by the COVID-19. This upward trajectory has been accompanied by the accumulation of a substantial amount of data within the applications. The objective of this study is to leverage data mining techniques to extract insights among the vast data and enhance the quality and stability of food delivery services by predicting restaurant churn based on their behavior patterns. The study explores methods to improve the performance of prediction model while addressing the challenge of imbalanced data. In the field of machine learning, the algorithms to solve classification problems have been developed early on. However, traditional classification models face limitations when applied to real-world datasets, which often exhibit imbalanced class distribution (i.e., some of classes have much more instances than others). To overcome this issue, this study focuses on applying the kNN approach for under-sampling imbalanced datasets, along with the Random Forest and XGBoost algorithms. The performance and effectiveness of the kNN approach are evaluated by comparing the individual model’s results obtained from the original dataset, dataset randomly under-sampled, and dataset under-sampled on kNN.

more