비즈니스 화상회의 서비스 분석을 위한 토픽 임베딩 모델 평가 및 적용
- 주제(키워드) topic model , word embedding , document clustering , mobile app review
- 발행기관 서강대학교 정보통신대학원
- 지도교수 정성원
- 발행년도 2021
- 학위수여년월 2021. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- UCI I804:11029-000000066287
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
서비스 개선을 위해 제품 출시 초기, 사용자 리뷰를 분석하는 것은 매우 중요하다. 하지만 사용자가 늘어나고 사용자 리뷰가 급격히 증가하게 되면, 어떤 유형의 불만과 의견에 우선순위를 두어야할지 분석하기가 쉽지 않다. 잠재 디리클레 할당 (LDA) 모델은 레이블이 없이 주어진 거대한 문서 집합으로부터 잠재된 의미를 탐색하는데 유용한 방법이다. 하지만 개별 문서의 길이가 짧거나 특정 도메인 내에서 세부 주제를 탐색하는 경우 모델이 잘 작동하기 어려운 한계가 있는데, 토픽의 핵심 단어와 단어 임베딩 벡터를 접목한 토픽 임베딩 모델을 시도하면 그 단점을 보완할 수 있다. 본 연구는 레이블이 부여된 리뷰 데이터에 대해 세 가지 토픽 임베딩 모델과 다양한 성능 지표를 탐색하였다. 그리고 선별된 모델과 지표를 적용하여 세 개의 비즈니스 화상회의 서비스 사용자 리뷰로부터 토픽을 검출하고 문서 군집을 시도하였다. 그 결과, 토픽 임베딩을 활용할 때 문서 군집의 형태가 LDA 결과와 큰 차이가 있었고, 군집 성능 지표와 각 사례들을 비교한 결과 충분히 활용 가치가 있음을 확인하였다. 토픽 모델이 주제가 주어지지 않은 문서 집합에서 주제를 검출하는 데 주로 활용된다는 점과 대다수의 분석이 필요한 텍스트 데이터는 레이블이 없다는 점을 고려할 때, 본 연구의 결과가 실질적인 분석 업무 현장에서 잘 쓰이길 기대한다.
more초록/요약
It is very important to analyze user reviews at the early stage of product launch for service improvement. However, as users and user reviews grow rapidly, it becomes difficult to analyze which types of complaints and opinions should be prioritized. Latent Dirichlet Allocation (LDA) models are a useful method for exploring latent meanings from a large set of unlabeled documents. However, there is a limitation to the model's difficulty in working well when the length of individual documents is short or when exploring detailed topics within a particular domain. Attempting a topic embedding model incorporating key words and word embedding vectors from the topic can compensate for its shortcomings. This study explores three topic embedding models and various performance metrics for labeled review data. We then apply selected models and indicators to detect topics from three business videoconferencing service user reviews and attempt to cluster documents. As a result, when leveraging topic embeddings, the shape of the document cluster differed significantly from the LDA results, and comparing the cluster performance indicators with each case confirmed that it was well-valued. Given that the topic model is primarily utilized to detect topics from a set of documents without a topic, and that the textual data requiring the majority of analysis is unlabeled, we hope that the results of this work will be well written in the practical analysis field.
more