소셜미디어 데이터 감성분석을 활용한 여론조사 예측모델 연구
Opinion Poll Prediction Model based on Sentiment Analysis of Social Media Data
- 주제어 (키워드) 감성분석 , 자연어처리 , 소셜미디어 , SNS , 여론조사 , Sentiment Analysis , NLP , Social Media , SNS , Public Opinion Poll
- 발행기관 서강대학교 정보통신대학원
- 지도교수 소정민
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000076534
- UCI I804:11029-000000076534
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 주요 SNS인 트위터, 인스타그램, 유튜브의 텍스트 데이터를 이용하여 감성분석을 적용한 모델이 여론조사로 측정된 대통령 지지율을 예측할 수 있는지 실증적으로 증명하고자 하였다. 기존에는 한 가지 SNS를 이용한 분석이 많았기 때문에 복수의 SNS를 통해 수집한 텍스트 데이터를 통합적으로 검토함으로써 모델의 예측 정확도를 더욱 향상시킬 수 있는지 알아보았다. 수집한 SNS 텍스트 데이터는 정제과정을 거친 뒤, 감성분석을 통해 긍정, 부정, 또는 중립으로 분류하였고 주간 단위로 분류한 전체 긍정 텍스트 개수를 전체 텍스트 개수로 나누어 각 SNS별로 주간 대통령 지지율 예측치를 산출하였다. 각 SNS별 대통령 지지율 예측 모델의 경우 트위터 모델이 가장 예측 성능이 우수했으며, 유튜브 모델의 경우 성능 평가 지표가 가장 떨어지는 것으로 나타났다. 또한 개별 SNS 모델보다 세 SNS를 통합한 모델의 RMSE가 개선됨을 확인하였다. 본 논문에서는 추가적으로 SNS통합 모델을 베이스라인으로 모델의 예측 성능지표를 보다 개선하기 위하여 각각의 SNS 모델의 결과값에 가중치를 적용한 모델들을 제안하였다. 추가 모델로 수집 데이터의 비율, 상관계수, 회귀계수를 가중치로 보정하는 방식을 제안하였고 본 연구에서 모두 성능의 개선을 보였다. 특히 회귀 모델이 가장 예측 성능이 우수했으며, 정규화 회귀모델의 종류에 따라 성능 면에서 다소 차이를 보였으나 그 차이가 유의미한 정도는 아니었다. 결론적으로 SNS 데이터를 활용하여 정치현상을 분석할 때에는 여러 SNS 데이터를 통합적으로 활용하는 편이 예측력을 높일 수 있었으며, 적절한 가중치로 보정하여 보다 예측 성능을 높일 수 있었다. 본 연구에서 제시된 예측 모델의 성능을 높이는 모델들이 다른 주제와 다른 소셜미디어 데이터의 조합에서도 예측 성능을 개선하는가에 관한 연구가 추가로 진행된다면 SNS를 활용한 정치 현상의 분석에서 보다 개선된 결과를 얻을 수 있을 것이라 기대한다.
more초록 (요약문)
This study empirically proves that the model, which is written based on the results of sentiment analysis conducted on text data of major SNSs such as Twitter, Instagram, and YouTube, can predict the presidential approval rating measured by the actual opinion poll results. In general, there have been many analyses using a single SNS, so this study tried to examine whether reviewing the text data collected through multiple SNSs could further improve the model’s prediction accuracy. The collected SNS text data was purified and then classified into positive, negative, or neutral through the sentiment analysis process. The weekly presidential approval rating prediction value for each SNS was calculated by dividing the total number of positive texts classified every week by the total number of texts. In the case of the presidential approval rating prediction model for each SNS, the Twitter model showed the best prediction performance, and the YouTube model had the lowest score of the metrics for evaluating the performance. In addition, it was found that the RMSE of the model integrated with the three SNSs was improved compared to the individual SNS models. This study additionally proposes models that apply weights to the results of each SNS model in order to further improve the predicting performance score with the SNS integration model as a baseline. As additional models, the study proposed a method of correcting the weight by the ratio of collected data, correlation coefficient, and regression coefficient. In this study, all of the models showed performance improvement. In particular, the regression model had the best prediction performance, and there were some differences in performance depending on the type of regularized regression model, however, the difference was not significant. In conclusion, this paper proved that it is possible to improve the predictive power by integrating multiple SNS data when analyzing the political status quo using SNS data. In addition, it can ameliorate predictive performance by correcting with an appropriate weight. If further research is conducted on whether the models that make the performance better of the prediction model presented in this study can enhance the prediction performance in other subjects and combinations of different social media data, improved results in the analysis of political phenomena using SNS can be expected to be obtained.
more