검색 상세

배달 앱 리뷰 신뢰도 향상을 위한 별점–텍스트 불일치 탐지 및 부정 유형 분류

Improving Reliability of Food Delivery App Reviews : Rating–Text Inconsistency Detection and Negative Type Classification

초록(요약문)

배달 앱 리뷰는 소비자 경험을 반영하는 핵심 피드백이지만, 별점만으로는 리뷰 텍스트에 담긴 불만이 충분히 반영되지 않아 실제 서비스 품질을 왜곡할 수 있다. 이러한 한계를 보완하기 위해 본 연구는 배달 애플리케이션 리뷰의 신뢰도를 높이는 것을 목표로 (1)별점과 텍스트 간 감성 불일치 탐지, (2)부 정 리뷰의 세부 유형 분류 연구를 수행하였다. 연구 1에서는 별점 기반 Proxy Label과 텍스트 내용의 불일치를 탐지하는 이진 분류 모델을 구축하고, Gold Label을 이용해 TF-IDF 기반 SVM과 KoBERT, KLUE-RoBERTa, KoELECTRA를 비교하였다. KoELECTRA가 가장 우수한 성능을 보 였으며, 이를 대규모 Proxy=0(긍정) 리뷰에 적용한 결과 9.04%가 텍스트 기반 분석에 의해 부정으로 정정되었다. 연구 2에서는 부정 리뷰를 배송, 서비스/응대, 가격/비용, 앱/시스템오류, 기타의 다섯 유형으로 세분화하고 멀티라벨 분류로 모델링하였다. 5-Fold 교 차검증 기반으로 KoBERT, KLUE-RoBERTa, KoELECTRA를 학습한 뒤 Soft-Voting 앙상블과 라벨별 threshold 최적화를 적용했으며, 최종 앙상블은 OOF Macro-F1 0.7843으로 단일 최고 모델 대비 성능을 향상하고 일반화 안정성을 확인하였다. 본 연구는 별점만으로는 포착되지 않는 불만을 텍스트 기반으로 조기 탐지 하고, 부정 원인을 유형 단위로 구조화함으로써 서비스 품질 관리 및 사용자 경험 모니터링에 활용 가능한 분석 기반을 제시한다. 주요어: 배달 앱 리뷰, 감성 불일치 탐지, 텍스트 분류, 한국어 사전학습 언 어모델, 멀티라벨 분류, 앙상블 학습

more

초록(요약문)

Food delivery app reviews are a key source of user feedback, yet star ratings alone often fail to reflect complaints expressed in review text, which can distort service-quality signals. To address this limitation, this study aims to improve review reliability by (1) detecting sentiment mismatches between ratings and text and (2) classifying negative reviews into fine-grained complaint categories. In Study 1, we formulated rating–text mismatch detection as a binary classification task and compared a TF–IDF-based SVM with Korean pretrained language models (KoBERT, KLUE-RoBERTa, and KoELECTRA) using gold-labeled data. KoELECTRA achieved the best performance on the gold test set; when applied to large-scale reviews labeled as positive by ratings (Proxy=0), 9.04% were reclassified as negative based on text. In Study 2, negative reviews were modeled as a multi-label classification problem with five categories (delivery, service/response, price/cost, app/system error, and others). Using 5-fold cross-validation, we trained KoBERT, KLUE-RoBERTa, and KoELECTRA and applied a soft-voting ensemble with label-wise threshold optimization; the final ensemble achieved an OOF Macro-F1 of 0.7843, improving over the best single model and showing stable generalization. Overall, this work enables earlier text-based detection of complaints overlooked by ratings and structures negative causes at the category level, providing an actionable foundation for service-quality monitoring and user-experience management.

more

목차

제1장 서 론 1
제1절 연구의 배경 및 필요성 1
제2절 연구의 목적 3
제3절 논문의 구성 5
제2장 이론적 배경 및 관련 연구 6
제1절 데이터 라벨링 체계 정의 및 검증 방안 6
(1) Proxy Label 6
(2) Gold Label 7
(3) 데이터 검증방안 7
제2절 모델 및 성능 평가 검증 방법 8
(1) TF-IDF 8
(2) SVM(Support Vector Machine) 8
(3) PLM(Pretrained Language Model) 9
(가) KoBERT 10
(나) KLUE-RoBERTa 10
(다) KoELECTRA 11
(4) 모델 학습 및 하이퍼파라미터 설정 11
(가) 하이퍼파라미터 및 탐색 전략 12
(나) 멀티라벨 출력 구조 및 BCEWithLogitsLoss 정의 12
(다) 최적화 알고리즘 및 일반화 전략 13
(라) 혼동행렬 13
(5) 검증 전략 및 앙상블 의사결정 15
(가) K-fold 교차검증 15
(나) Soft-Voting Ensemble 15
(다) threshold 16
제3절 음식 배달 앱 리뷰를 활용한 감성 분석 연구 17
제4절 데이터셋 구축 방식의 한계 18
제5절 머신러닝 기반 감성 분석 모델 성능 비교 20
제3장 연구 방법 및 데이터 구성 21
제1절 본 연구와 기존 연구의 차별성 21
제2절 연구 개요 23
제3절 데이터 수집과 구성 24
제4절 Gold Label 구축 과정 26
제5절 데이터 전처리 및 입력 피처 생성 29
(1) 텍스트 정제 29
(2) 토크나이징(Tokenization) 방식 30
(3) 데이터 셋 분리 30
(4) 연구 1: 별점–텍스트 불일치 탐지를 위한 입력 피처 생성 31
(5) 연구 2: 부정 리뷰 세부 유형 분류를 위한 입력 피처 생성 32
제4장 모델 설계 및 학습 33
제1절 베이스라인 및 모델 설계 33
제2절 연구 1. 별점-텍스트 불일치 탐지 모델 설계 35
(1) 데이터 셋 및 문제 정의 35
(2) SVM 하이퍼 파라미터 탐색 36
(3) 한국어 PLM 공통 학습 설정 및 하이퍼 파라미터 탐색 범위 38
(4) 최적 설정 및 최종 모델 선정 기준 39
제3절 연구 2. 부정 유형 세분화 모델 설계 40
(1) 데이터 셋 및 문제 정의 40
(2) SVM 하이퍼 파라미터 탐색 42
(3) 한국어 PLM 공통 학습 설정 및 하이퍼 파라미터 탐색 범위 43
(4) 최적 설정 및 최종 모델 선정 기준 45
제5장 연구 결과 47
제1절 연구 1. 별점-텍스트 불일치 탐지 결과 47
(1) SVM 하이퍼 파라미터 상위 조합 47
(2) PLM 하이퍼 파라미터 상위 조합 49
제2절 연구 1. Gold Test 성능 및 혼동행렬 기반 해석 52
(1) Gold Test 혼동행렬 52
(2) Proxy Label 적용 결과 53
(3) Proxy Label 정정 사례 기반 해석 및 오류 사례 분석 53
(4) KoELECTRA의 성능 56
(5) 연구 1의 의도 및 기여 57
제3절 연구 2. 부정 리뷰 세부 유형 분류 결과 58
(1) SVM 하이퍼 파라미터 상위 조합 58
(2) 단일 모델 PLM 성능 및 최종 앙상블 모델 선정 59
(3) 앙상블 구성: 가중치 탐색 및 라벨별 threshold 최적화 62
(4) Holdout Test 성능 및 라벨별 혼동(오탐/미탐) 해석 63
(5) 정성 사례 기반 해석 및 분석 65
(6) 연구 2의 의도 및 기여 68
제6장 결론 70
참고 문헌 72

more