서비스 개선 포인트 도출을 위한 배달 어플리케이션의 리뷰 데이터 분류
Classification for Review Data in Food Delivery Application
- 발행기관 서강대학교 정보통신대학원
- 지도교수 최준석
- 발행년도 2022
- 학위수여년월 2022. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- 실제 URI http://www.dcollection.net/handler/sogang/000000066903
- UCI I804:11029-000000066903
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
스마트폰의 보급으로 어플리케이션 시장이 성장하면서 다양한 산업이 온라인화 되었고 플랫폼 서비스가 보편화되었다. 플랫폼 서비스에서의 리뷰는 생산자와 고객이 소통하는 수단이며 또한 리뷰를 고객의 니즈나 선호도를 할 수 있는 중요한 부분 중 하나이나 매일 많은 리뷰가 새롭게 등록되어 모든 글을 직접 읽으며 현황을 파악하는 것은 효율적이지 않다. 본 연구는 안드로이드 구글 플레이스토어에서 2021년 10월~2022년 2월 배달의 민족 사용자가 작성한 리뷰 데이터를 크롤링하여 분류 분석을 진행 하였다. selenium을 사용하여 총 7,801개의 리뷰를 수집 하였으며 전처리 후 단순 칭찬, 단순 불만 및 비방, 내용을 판단할 수 없는 리뷰는 제외 하고 모델링시에는 최종적으로 5,298개의 리뷰를 사용하였다. 먼저, 클러스터링과 토픽모델링으로 초기 라벨링 작업을 하였으며, 특이사항 있는 라벨은 수기로 보정하였다. 이 후 Naïve Bayes와 TEXT CNN 알고리즘을 이용해 데이터를 학습시키고 최종 카테고리 분류 작업을 진행하여 알고리즘 예측값과 초기 라벨링 결과의 값을 비교하여 성능을 분석하였다. 본 연구의 결과 카테고리 분류 성능은 두 알고리즘에서 모두 약 60%, 68%를 보였다. 카테고리 중 특정하기 쉬운 수저/포크 안받기 디폴트 설정 불편 및 계정 인증 오류, 첫주문 쿠폰 관련 불만 등의 정확도가 높은 편이었으며, 상위레벨인 배달과 겹치는 오배송과 라벨 수가 적고 분류가 명확하지 않은 주문 이슈, 주소 이슈등의 카테고리 정확도는 다소 낮게 나왔다. 본 연구는 initial labeling 과정으로 최종 라벨링 과정에 드는 공수를 적게한 점과 상위 분류가 아닌 소분류 수준의 카테고리를 기준으로 분류 작업을 진행하였다는데 의의가 있다. 또한, 본 연구의 결과를 바탕으로 고객들이 해당 플랫폼 서비스에 기대하는 바를 보다 빠르게 파악할 수 있을 것으로 기대한다.
more초록
As the application market shows rapid growth with the spread of smartphones, various industries started online businesses, and platform services became daily use in our lives. Customer reviews in the platform service are a way of communication between producers and customers. The reviews are an essential means of getting to know customer needs and preferences, but it is not efficient to read a vast number of reviews posted daily to analyze the current status. The aim of this thesis is to find points that can improve the service quickly from the reviews. In this study, I used classification analysis by crawling the data of reviews posted by users of Baemin on the Google Play Store from October 2021 to February 2022. A total of 7,801 reviews were collected using selenium, and after data preprocessing, 5,298 reviews were finalized for modeling, excluding simple praises, simple complaints and slander, and irrelevant reviews. First, I performed initial labeling by clustering and topic modeling and manually revised labels with remarks. After that, I compared the value of the initial labeling result and the result derived from studying with Naïve Bayes and the TEXT CNN algorithm and performing the final category classification. As a result of this study, the category classification showed its performance at about 60% in each of the two algorithms. Among the categories, the inconvenient default setting of ‘the spoon and fork are not necessary,’ account authentication errors, and complaints related to the first order discount coupon which were easy to specify turned out to be highly accurate. The significance of this study is that the man-hour is reduced required for the final labeling process and the classification analysis is used based on the sub-classification level rather than the upper classification as the initial labeling process. Furthermore, this study will provide a result that allows us to identify thoroughly and quickly what customers expect from the platform service.
more