검색 상세

Deep Q-learning을 이용한 강화학습 기반 대화관리 모델

A Dialogue Management Model based on Deep Q-learning

초록/요약

대화관리 모델은 대화 시스템에서 가장 중심적인 역할을 담당하는 부분이다. 기존의 규칙 기반 대화관리 모델은 간단하고 구축이 쉽다는 장점이 있지만 확장성이 제한적이며 대화 시스템 유지비용이 너무 크다는 단점들을 가지고 있다. 이런 문제점들을 극복하기 위하여 자율학습 기능을 탑재한 대화관리 모델이 필요하다. 본 논문에서는 강화학습 기반 대화관리 모델을 제안하고 사용자 발화에 대한 정보를 효율적으로 대화상태에 반영하기 위하여 대화상태를 사용자 발화의도의 신뢰점수를 포함한 연속적 벡터로 표현한다. 또한 대화관리 모델의 학습 과정에서 사용자의 역할을 대신하여 발화를 생성하는 사용자 시뮬레이터로 학습 환경을 구축하고 시스템의 대화행위에 대한 보상함수를 정의하여 Deep Q-learning 알고리즘으로 방대한 대화상태에서 최적의 대화 행위를 학습하는 방법을 제시한다. 제안하는 강화학습 기반 대화관리 모델의 성능을 평가하기 위하여 세 가지 인식오류 등급을 가진 환경을 구성하였고 DSTC2 Restaurant Information 도메인과 DSTC3 Tourist Information 도메인에서 규칙 기반 대화관리 모델과의 성능을 비교하였다. 실험한 결과 인식오류가 있는 환경에서 강화학습 기반 대화관리 모델은 규칙 기반 모델보다 더 높은 대화성공률을 보였고 인식오류가 높을수록 성공률의 차이가 더 크게 나타났다. 실험결과는 다중 도메인에서 자율학습 기능을 갖춘 강화학습 기반 대화관리 모델이 효과적임을 입증한다.

more

초록/요약

Dialogue management plays a central role in a dialogue system. One natural way to build a dialogue management model is to define a set of rules that the system can follow during the course of dialogue. However, such model has deficiencies, such as limited flexibility, high maintenance cost, and noise sensitivity. In order to overcome some of those limitations, this study proposed a dialogue model based on reinforcement learning, which can automatically learn an optimal dialogue policy from interaction with the dialogue environment. Dialogue states are represented as a continuous vector using confidence scores of SLU results to better handle SLU noise. In addition, a learning environment is proposed. The environment replaces the role of a real user to train the model. Furthermore, by using deep Q-learning algorithm as a function approximator to estimate action-values efficiently, the convergence of policy optimization process is guaranteed. Evaluation process is conducted by comparing the performance of the proposed model to a rule-based dialogue model within the dialogue domain of DSTC2 and DSTC3 under three different noise levels. Experimental results demonstrate that the proposed dialogue model using automatically learned dialogue policy significantly outperforms the rule-based dialogue model in noisy conditions, which proves the efficiency of the proposed model.

more