어텐션 기반 시퀀스 투 시퀀스 모델을 이용한 감정기반 한국어 대화 응답 생성
An Emotional Korean Response Generator for Dialogue using the Sequence-to-sequence model with Attention
초록/요약
1966년 최초의 대화형 에이전트를 시작으로 딥러닝이 자연어처리의 주류가 된 현재까지 대화시스템은 무수한 발전을 거쳐왔다. 이러한 대화시스템은 목적에 따라 목적지향 대화시스템과 비 목적지향 대화시스템으로 구분할 수 있다. 비 목적지향 대화 시스템에서는 사용자와 다양한 주제로 대화를 진행할 수 있어야 한다. 하지만 문맥을 파악하고 사용자의 ‘감정’에 공감하며 질문에 대한 적절한 응답을 출력하는 것은 목적지향 대화 시스템에 비해 어려운 문제로 평가받고 있다. 본 연구에서는 어텐션 기반 시퀀스 투 시퀀스 모델을 이용하여 한국어 대화시스템을 구현하고, 입력된 질문에 대해 주어진 감정을 내포한 다양한 응답을 생성하는 것에 목적을 두고 있다. 먼저 한국어의 교착어라는 특성에 기반하여 토큰화 과정에 변화를 주어 대화시스템의 품질을 향상시키는 방법을 다룬다. 형태소 분석을 토대로 토큰화(tokenization)한 모델과 WPM(Wordpiece model)을 비교해 응답의 품질을 비교한다. 이어서 출력된 응답의 품질을 측정하기 위해 MOS(Mean Opinion Score)에 기반한 정성적 평가 기준을 제안한다. 각각 다른 토큰화 프로그램을 사용하여 평가 검증한 결과, 형태소 기준으로 토큰화를 진행한 모델보다 하위 단어 단위(Subword units)로 단어를 토큰화 시킨 WPM(Wordpiece model)모델에서 출력된 응답의 선호도가 높게 도출되었다.
more초록/요약
From the first conversational agent in 1966 to the current state in which deep learning is the mainstream of natural language processing, the dialogue system has evolved greatly. Such dialogue system can be classified into task-oriented dialogue system and non-task-oriented dialogue system. In non-task-oriented dialogue system, it should be able to converse with a user about a broad range of topics. However, understanding the context, relating to the “feelings” of a user, and outputting an appropriate answer to a question are evaluated to be problematic in comparison to task-oriented dialogue system. This study aims to build a Korean dialogue system by using Sequence-to-sequence with Attention mechanism and to generate various responses including the feelings to a question input. First, it deals with a method of improving the quality of dialogue system by modifying the tokenization process based on a characteristic of Korean as an agglutinative language. It compares the quality of responses by comparing a model that was tokenized according to morphological analysis with WordPiece model (WPM). Subsequently, it suggests Mean Opinion Score (MOS)-based qualitative evaluation standard to gauge the quality of response output. According to evaluation results verified using different tokenization software for each, response output from WordPiece model (WPM) that tokenized words on subword units had higher preference than those from a model that was tokenized based on morpheme.
more