목적지향 대화시스템에서 LSTM 언어모델을 이용한 한국어 자연어 생성
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2018
- 학위수여년월 2018. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000062908
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
대화시스템에서 자연어 생성이란 대화관리자로부터 전달받은 의미표현을 사람이 이해할 수 있는 자연어로 생성하는 것이다. 기존의 규칙기반 자연어 생성 모델은 문법적 의미적으로 정확한 문장만을 생성하기 때문에 강건한 성능을 보장한다는 장점을 가지고 있지만, 새로운 의미표현에 대해 매번 규칙을 제작하며, 하나의 의미표현에 대해 한정적인 대답만을 생성한다는 문제점을 가지고 있다. 반면, 기존의 통계 기반 자연어 생성 모델은 하나의 의미표현에 대해 말뭉치에 없는 새로운 문장을 생성할 수 있지만, 문법적이나 의미적으로 불완전한 문장이 생성된다는 문제점을 가지고 있다. 본 논문에서는 기존의 방법론의 문제점을 극복하기 위하여 최근 대두되고 있는 심층학습 모델중 하나인 LSTM(Long Short Term Memory) 언어모델을 이용한 한국어 자연어 생성 모델을 제안한다. 또한 대화시스템의 시스템발화 생성 모델을 학습하기 위해 한국어 시스템 발화 말뭉치를 소개한다. 최적의 성능을 내는 자연어 생성 모델의 문장 학습단위를 파악하고자 어절, 형태소, 음절단위로 모델을 학습하였고, 그 중에서 형태소 단위 문장생성 모델이 BLEU-4와 ERR에서 가장 높은 성능을 나타내었다. 본 논문에서는 하나의 의미표현에 대하여 다양하고 문법적으로 정확한 문장을 생성하기 위하여 빔서치 디코딩(Beam-Search Decoding)을 적용하였다. 그 결과 기존의 그리디서치 디코딩(Greedy-Search Decoding)방법론에 비해 어절, 형태소, 음절단위 문장 생성 모델에 대하여 모두 높은 성능의 문장을 생성하는 것을 확인하였다
more

