검색 상세

BERT 기반 한국어 감정 사전을 이용한 감정 예측기 개발

Development of Emotional Prediction Technique using a Korean Emotional dictionary based on BERT,

이가은 (서강대학교 정보통신대학원)

원문보기

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 구명완
  • 발행년도 2020
  • 학위수여년월 2020. 8
  • 학위명 석사
  • 학과 및 전공 정보통신대학원 데이터사이언스
  • UCI I804:11029-000000065347
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약moremore
자연어처리(Natural Language Processing)의 한 분야인 감정 분석(Sentiment Analysis)은 텍스트에 나타나 있는 어떤 대상에 대한 누군가의 의견이나 평가, 감정 따위를 자동으로 분석하는 것을 목표로 한다[1]. 감정 분석을 하기 위해서는 문장의 긍정, 부정 기준이 되는 감정 사전(Sentiment Lexicon)을 사용하는 방법이 있다. 감정 사전을 구축하는 것은 감정 분석의 중요한 연구과제 중 하나이다. 본 논문에서는 감정 사전을 이용하여 감정 분석 연구를 진행한다. 행복, 중립, 슬픔, 분노 네...
자연어처리(Natural Language Processing)의 한 분야인 감정 분석(Sentiment Analysis)은 텍스트에 나타나 있는 어떤 대상에 대한 누군가의 의견이나 평가, 감정 따위를 자동으로 분석하는 것을 목표로 한다[1]. 감정 분석을 하기 위해서는 문장의 긍정, 부정 기준이 되는 감정 사전(Sentiment Lexicon)을 사용하는 방법이 있다. 감정 사전을 구축하는 것은 감정 분석의 중요한 연구과제 중 하나이다. 본 논문에서는 감정 사전을 이용하여 감정 분석 연구를 진행한다. 행복, 중립, 슬픔, 분노 네 가지 감정을 예측할 수 있는 한국어 감정 사전을 구축한다. 구축한 감정 사전을 이용하여 텍스트의 감정을 예측할 수 있도록 한다. 실험 데이터는 서강대학교 감정 텍스트 데이터 셋 1000개를 기준으로 8:1:1 비율로 각각 훈련, 검증, 테스트데이터로 분리한 후 실험하였다. 단어의 개수를 결정하는 토큰화 방법으로 WPM(Word Piece Model)과 BERT(Bidirectional Encoder Representations from Transformers)를 사용했으며, 감정 사전 구축은 단어의 극성을 측정하여 단어와 극성을 저장하는 방법인 PMI(Pointwise Mutual Information) 기법을 사용한다. 예측 정확도를 최적화하여 더 나은 사전을 구축할 수 있도록 한다. 실험 결과 WPM을 이용하여 구축한 감정 사전은 61%, BERT는 75%의 예측 정확도를 보였다. 이러한 결과로 BERT 기반 한국어 감정 사전을 이용하여 네 가지의 감정을 예측하는 것이 더 좋은 결과를 보여줌을 확인했다.
초록/요약moremore
Sentiment Analysis which is one of the fields in Natural Language Processing, aims to automatically analyze such as opinion and feeling of a person on a certain subject that is presented in the text[1]. To be able to make Sentiment analysis, it uses Sentiment Lexicon which differentiates whether the...
Sentiment Analysis which is one of the fields in Natural Language Processing, aims to automatically analyze such as opinion and feeling of a person on a certain subject that is presented in the text[1]. To be able to make Sentiment analysis, it uses Sentiment Lexicon which differentiates whether the sentence is positive or negative. Constructing the Sentiment Lexicon is one of the important research subjects for Sentiment Analysis. In this paper, it constructs Sentiment Lexicon in Korean that can foresee 4 types of sentiments which are happiness, neutrality, sadness, and anger. And this will be used in predicting the feeling of the text. The experimental data was based on the 1000 sentiment text data set from Sogang University and later divided to learning data, validation data, and test data in the ratio of 8:1:1 for the experiment. WPM(Word Piece Model) and BERT(Bidirectional Encoder Representations from Transformers) were used for tokenization which determines the number of words and PMI(Pointwise Mutual Information) technique was used to measure the polarity of a word and to store its polarity and the word for the construction of sentiment Lexicon. optimize the accuracy of the prediction for the better construction of the Lexicon. The result of the study shows the accuracy of prediction of 61% for Sentiment Lexicon using WPM, and for BERT 75%. This result confirms that using Korean Sentiment Lexicon based on BERT to predict the 4 types of sentiment brings a better result.