검색 상세

A Neural Dialog Policy Network using Dropout-based Bayesian Q-network

초록/요약

This thesis presents the dropout-based Bayesian Q-network agent for the task-oriented dialog systems. While Bayesian inference is theoretically assumed to improve a deep Q-learning process, its computational complexity has restricted practical implementations. To reduce this burden, this thesis proposes a dropout training based on approximate variational inference for a deep Q-network. The proposed model is examined on the ConvLab environment (Lee et al. 2019) with MultiWoz dataset. It shows a significant improvement in performance, which is 35 % higher in terms of success rate compared to other baseline deep reinforcement learning algorithms such as DQN, REINFORCE, PPO. This thesis also demonstrate that our model can be trained without warm start or replay buffer spiking, which has been discussed as an essential component for training DQN in the large action-state region. Moreover, the adoption of dropout as an approximated variational inference results little difference in the training speed between the proposed model and the vanilla DQN model.

more

초록/요약

본 논문은 Dropout 기반의 Bayesian Q-네트워크를 이용한 인공신경망 대화처리기를 제안한다. Bayesian 추론이 심층 Q 학습을 개선시킬 수 있을 것이라는 이론적 예측에도 불구하고 Bayesian 추론의 계산적 비용때문에 이와 관련한 실용적인 모델을 찾는 것은 어려운 일이었다. 본 고는 기존에 딥러닝 분야에서 정규화의 방법으로 이용되는 Dropout 기법을 적용해 Q-네트워크를 위한 근사된 Bayesian 추론 모델을 제안한다. ConvLab (Lee et al. 2019) 프레임워크에서 MultiWoz 데이터 셋에 대해 제안된 모델을 평가한 결과 기존의 문헌에서 사용되던 DQN, REINFORCE, PPO와 같은 심층 강화학습 모델보다 대화 성공에 있어 35% 이상 향상된 성능을 보였다. 제안된 모델은 기존의 문헌에서 대화 정책 학습과 같이 주변 환경의 상태와 행동의 차원이 큰 실험 설정에서 필수적이라고 여겨졌던 warm-start 없이도 훈련이 가능하다는 것이 실험결과를 통해 확인되었다. 또한 훈련과 추론 속도에 대한 실험 결과, 본 고에서 제안한 모델은 훈련 및 추론 속도에 있어 vanilla DQN model과 거의 차이를 보이지 않았다.

more