WPM(Word Piece Model)을 활용한 플레이 스토어 앱의 비격식 댓글 감정 분석 연구
A Study on the Sentiment analysis of Informal Review
- 주제(키워드) WPM , Word Piece Model , Sentiment Analysis , Opinion Mining , Machine Learning , Deep Neural Network
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2017
- 학위수여년월 2017. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 소프트웨어공학
- 실제URI http://www.dcollection.net/handler/sogang/000000061357
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
댓글은 정제되지 않은 비격식(informal) 텍스트 문서이다. 비격식 문서는 격식(formal) 문서에 비해 작성자가 자유로이 작성할 수 있기에 일관된 규칙이나 패턴을 찾는 과정이 더 복잡하다. 따라서, 댓글을 분석하기 위해서는 기존의 띄어쓰기, 어절단위, 형태소 분석기와는 다른 접근 방식이 필요하다고 판단된다. 그래서, 본 연구에서는 한국어 기본 유닛 단위로 WPM(Word Piece Model)을 활용하여 구글 한국의 플레이 스토어 앱 댓글에 대한 감정 분석을 수행하였다. 먼저 자동 띄어쓰기 교정기 시스템 적용 유무에 따라 문서를 분류한다. 다음으로 어절단위, 형태소 분석기, WPM을 각각 적용하여 유닛을 생성한 후, Doc2Vec 알고리즘으로 댓글의 벡터(Vector)표현을 생성한다. 그리고, 성능 실험에 사용된 분류기로는 로지스틱 회귀(Logistic Regression), 소프트맥스 회귀(Softmax Regression), 지지 벡터 기계(Support Vector Machine, SVM)와 심층 신경망(Deep Neural Network, DNN)을 사용하였고, 긍정/부정 정확률을 측정한 후에 비교 분석하였다. 그 결과 분류기로는 DNN 사용시 가장 우수하였고, 어절단위는 86.11%, 형태소 분석기는 89.32%, WPM은 92%의 결과를 얻었다.
more초록/요약
Comments such as reviews of Google Play Store App belong to an informal document group. Compared with formal document groups, It is more difficult to identify consistent rules or patterns in the texts, since authors are not bound in prescriptive grammar in typing comments. It is required to device a novel approach to analyze the comments in place of using traditional tokenization method such as an auto word spacing, terms of eulogy, and a part-of-speech tagger. In an attempt to develop a more effective informal document analysis, we conducted a sentiment analysis on reviews of Korean Google Play Store App in the Word Piece Model (WPM). For purpose of our research, we first classified documents into two groups depending upon application of automatic word spacing system. Subsequently, we generated inventories by means of three different technique: terms of eulogy, a part-of-speech tagger, and WPM. The experiment was conducted to compare the accuracy rate of two classifiers, Support Vector Machine (SVM) and Deep Neural Network (DNN). As a result, DNN was the best classifier, with 86.11% in terms of eulogy, 89.32% in part-of-speech tagger, and 92% in WPM.
more