WPM 기반 종단메모리네트워크를 이용한 한국어 뉴스 내용 분류에 관한 연구
- 주제(키워드) WPM , 종단메모리네트워크 , 메모리네트워크 , MemN2N
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2018
- 학위수여년월 2018. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 정보처리
- 실제URI http://www.dcollection.net/handler/sogang/000000063578
- UCI I804:11029-000000063578
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
머신 러닝에 의존하여 과거 경험을 바탕으로 올바른 추측을 하기 수월해진 요즘, 본 연구에서는 인터넷 한국어 뉴스 데이터로 카테고리 분류에 대한 모델을 제안한 후 학습시켜 비교분석 하였다. ‘담배’를 주제로 한 뉴스를 선정한 이유는 특정 키워드가 자주 등장하기 때문이다. 또한 담배에 대한 부정적인 인식 때문에라도, 사회공헌 활동을 많이 하고 있어 인터넷 뉴스를 쉽게 찾아볼 수 있다는 게 두 번째 이유이다. 실험데이터는 비즈니스적 분류 방법인 정성적 분류를 통해 여러 번의 검수를 거쳐 제품, 기업, CSR활동이라는 세 카테고리로 분류하였다. 본 연구에서는 흔히 쓰이는 형태소분석기 대신, 언어에 대한 사전 지식 없이 혼잡도를 최소로 하여 어휘를 자동 생성하는 방법인 WPM(Word Piece Model)을 적용했다. 또한 컨버팅 과정에서 제목과 기사내용으로 이루어진 실험데이터에 카테고리를 묻고 답하는 질의응답 형식의 구문 을 추가하여 종단메모리네트워크 모델을 적용할 수 있도록 하였다. 즉 질의응답 형식으로 실험데이터의 카테고리를 분류해내는 NLP(Natural language processing)의 두 가지 분야를 접목시켰다. 총 두 개의 모델을 두 가지 방법으로 비교 분석하였는데 첫 번째로는 WPM을 적용한 LSTM(Long Short Term Memory)모델과 종단메모리네트워크 모델의 성능을 비교하였고, 두 번째로는 같은 종단메모리네트워크 모델에 WPM 적용 유무에 따라 그 성능이 얼마나 차이 나는지에 대해 확인해보았다. 그 결과, WPM을 적용한 종단메모리네트워크 모델의 성능이 89.7%로 가장 우수함을 알 수 있었다.
more