종단 메모리 네트워크를 한국어 가짜 신문 기사 분류에 적용시키기 위한 방법
A Method for Applying End-To-End Memory Networks to Korean-based Fake Newspaper Article Classification
- 주제(키워드) 머신러닝 , 인공지능 , 메모리 네트워크 , 종단 메모리 네트워크
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2018
- 학위수여년월 2018. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 소프트웨어공학
- 실제URI http://www.dcollection.net/handler/sogang/000000063581
- UCI I804:11029-000000063581
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
질의응답 문제를 인공지능 모델을 통해 해결하는 연구는 메모리 네트워크의 등장으로 인해 방법론의 변화를 맞이하고 있으며 그중 종단 학습 모델이 적용된 종단 메모리 네트워크 (End to End Memory Networks) 가 최근에 기존 메모리 네트워크보다 더 넓은 범위에 적용할 수 있다고 알려지면서 다양 한 분야에 종단 메모리 네트워크를 활용한 연구가 진행 중이다. 종단 메모리 네트워크는 주로 자연어 처리에 많이 활용되고 있으며 Facebook에서 bAbI Task를 개발하고 20가지 정도의 대화 셋을 통해 다양한 질의에 대해 적절한 답변을 찾는데 매우 높은 성능을 보이고 있다. 쳇봇과 검색엔진 등 문장 데이터를 입력받고 정답을 찾는데 매우 높은 성능을 보이고 있어 종단 메모리 네트워크의 활용도가 매우 높아지고 있다. 본 논문에서는 bAbI Task 중에서 yes or no 형태의 질의응답 셋과 같은 포맷으로 Supporting fact를 사용한 질의응답 셋과 Supporting fact를 사용하지 않은 질의응답 셋으로 종단 메모리 네트워크를 활용하여 인터넷상에서 수집한 진짜 뉴스 데이터와 그 뉴스를 가공한 가짜 뉴스 데이터를 얼마나 잘 분류할 수 있는지를 실험하고 둘 중 어떤 모델이 더 성능이 좋은지 비교하였으며 데이터는 진짜 뉴스 데이터 1604개와 가짜 뉴스 1602개 데이터를 트레이닝에 가짜 뉴스 1282개, 진짜 뉴스 1283개를 사용하였고, 검증에 가짜 뉴스 159개와 진짜 뉴스 160개, 테스트에 가짜 뉴스 162개와 진짜 뉴스 161개를 사용하였다. 본 논문에서는 뉴스 기사 본문의 전체 내용과 관련 없는 문장이나 문단이 삽입된 경우의 3가지 가짜 뉴스를 종단으로 훈련하였으며, 영어 뉴스가 아닌 한글 뉴스로 훈련하고 테스트한 결과 성능은 94.11%를 보였다.
more