검색 상세

BERT 기반 정유사 뉴스의 감성분석

Sentimental Analysis of Oil Refinery News Based on BERT,

백명현 (서강대학교 정보통신대학원)

원문보기

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 구명완
  • 발행년도 2021
  • 학위수여년월 2021. 2
  • 학위명 석사
  • 학과 및 전공 정보통신대학원 데이터사이언스
  • UCI I804:11029-000000065872
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약moremore
This thesis aims to conduct sentimental analysis based on BERT, focusing on news related to oil refineries. The sentimental analysis in this study is made with pre-trained BERT model such as Multilingual BERT, KoBERT, KcBERT by focusing on three major categories of ‘titles’, ‘titles with contents’ a...
This thesis aims to conduct sentimental analysis based on BERT, focusing on news related to oil refineries. The sentimental analysis in this study is made with pre-trained BERT model such as Multilingual BERT, KoBERT, KcBERT by focusing on three major categories of ‘titles’, ‘titles with contents’ and ‘contents’. This study is composed of two stages: data processing and application to the BERT model. Data processing proceeds in the order of collecting the news, labeling, removal of strings with low relevance and tokenizing. As a result of the experiment, the accuracy of the pre-training model was in the order of KoBERT (84%), KcBERT (78%), and Multilingual (78%). After choosing KoBERT, various experiments are made about how to make a fine-tune with titles and contents of news. The final result shows that inference with only the title after making a fine-tune with titles and contents together yields the best performance of 92%, which is higher than inference with both of title and contents by 10%.
초록/요약moremore
본 논문은 정유사 뉴스를 활용하여 BERT 기반의 감성분석 연구를 진행하고자 한다. 뉴스의 형식이 제목과 내용으로 나누어지는 점에 착안하여, 제목, 제목과 내용, 내용 등으로 나누어 Multilingual BERT, KoBERT, KcBERT 등 Pre-trained BERT Model을 활용한 감성분석을 실시하였다.연구는 데이터 전처리 과정, BERT Model에의 적용 등 크게 두 단계로 진행되었다. 데이터 전처리 과정은 뉴스 수집단계, 라벨링, 뉴스의 내용과 관련도가 낮은 문자열의 제거, Tokenizing 의 순으로 진행하였다. 실험결과, 제목과 내용을 기준으로 Fine-tune과 Test 실행결과는 Accuracy를 기준으로 KoBERT(84%), KcBERT(78%), Multilingual(78%) 의 순서임을 확인하였다. KoBERT 기반으로 제목과 내용에 대하여 교차실험을 통해 제목과 내용으로 Fine-tune을 실행하고, 뉴스 제목으로 Test를 하는 것이 가장 좋은 성능을 보였다. 이 때의 Accuracy는 92%로 기존 제목과 내용으로 Fine-tune, Test를 진행한 경우보다 성능이 약 10% 향상됨을 확인할 수 있었다.
본 논문은 정유사 뉴스를 활용하여 BERT 기반의 감성분석 연구를 진행하고자 한다. 뉴스의 형식이 제목과 내용으로 나누어지는 점에 착안하여, 제목, 제목과 내용, 내용 등으로 나누어 Multilingual BERT, KoBERT, KcBERT 등 Pre-trained BERT Model을 활용한 감성분석을 실시하였다.연구는 데이터 전처리 과정, BERT Model에의 적용 등 크게 두 단계로 진행되었다. 데이터 전처리 과정은 뉴스 수집단계, 라벨링, 뉴스의 내용과 관련도가 낮은 문자열의 제거, Tokenizing 의 순으로 진행하였다. 실험결과, 제목과 내용을 기준으로 Fine-tune과 Test 실행결과는 Accuracy를 기준으로 KoBERT(84%), KcBERT(78%), Multilingual(78%) 의 순서임을 확인하였다. KoBERT 기반으로 제목과 내용에 대하여 교차실험을 통해 제목과 내용으로 Fine-tune을 실행하고, 뉴스 제목으로 Test를 하는 것이 가장 좋은 성능을 보였다. 이 때의 Accuracy는 92%로 기존 제목과 내용으로 Fine-tune, Test를 진행한 경우보다 성능이 약 10% 향상됨을 확인할 수 있었다.