검색 상세

사용자 모델을 이용한 대화 전략의 빠른 강화 학습

Fast Reinforcement Learning of Dialog Strategy using User Model

초록/요약

대화 시스템은 자연어를 사용하여 사람과 대화를 통해 상호작용하는 시스템을 말하며 자연어 대화는 사용자에게 매우 직관적이며 효율적으로 시스템을 다룰 수 있는 방법을 제공한다. 대화는 다양한 형태로 존재하며 대화 내의 발화에 대한 처리도 복잡하므로 사용자가 만족할 만한 자연스러운 대화를 이끌어 가는 시스템을 설계하는 것은 어려운 일이다. 이에 대한 해결책으로 미리 정한 대화 전략(Dialog Strategy)에 따라 대화를 진행하는 시스템이 고안되었다. 기존 연구들에서 대화 전략은 기계 학습 방법 중 하나인 강화학습(Reinforcement Learning)을 통해 주로 작성되었다. 강화학습은 최적의 대화 전략을 학습하는데 적합하지만 비교적 많은 학습 데이터를 필요로 하는 단점이 있다. 다른 종류의 학습 데이터 보다 대화 학습 데이터는 작성하는데 더 많은 노력과 시간이 소모되므로 학습에 충분한 대화 데이터를 확보하는데 어려움이 많다. 또한 학습에 사용되는 데이터가 많으므로 학습 속도가 느린 편이다. 본 논문에서는 사용자 모델(User Model)을 사용하여 적은 학습 데이터에서도 빠르게 학습이 가능한 대화 전략 강화학습 방법을 제안한다. 이 방법은 시스템이 할 수 있는 다양한 행동들 중, 현재 상황에 보다 적합한 행동들을 구별하고 이런 행동들만을 학습에 사용한다. 그러면 학습 과정에서 시스템이 불필요하게 탐색해야 할 공간을 줄여주어서 학습되는 대화 전략의 질(Quality)을 유지하면서도 학습 속도를 빠르게 할 수 있다. 다른 비교 시스템과 동일한 사용자 모델을 사용하여 학습 실험을 한 결과, 비교 시스템에 46%의 학습 데이터 만으로도 비슷한 성능을 내는 것을 볼 수 있었고, 학습 시간도 비교 시스템의 35%로 감소하는 것을 볼 수 있었다.

more

초록/요약

A dialogue system interacts with human using the natural language. Although natural language conversation is a instinctive and efficient way for human users, designing a dialog system is very difficult because of the diversity of the dialog. Most dialog system use their own dialog strategy when the systems interact with humans. Some of them have used a reinforcement learning method to learn the dialog strategy. But the reinforcement learning generally requires a lot of training data. Making enough dialog training data is time-consuming and hard work. Therefore, developing a fast way to learn a dialog strategy using reinforcement learning is very important. In this paper, we proposed a fast reinforcement learning model to learn a dialog strategy using a user model reflects the characteristics of a user. With the user model, the proposed system can choose better actions for a current state in learning process. It makes the learning process fast while sustaining the quality of the learned dialog strategy. We compare the proposed system with a baseline system. In the experiment the proposed system shows the similar performance with only 50% of the training data, and reduced the learning time by 35%.

more

목차

제 1 장 서론 = 1
제 2 장 관련 연구 = 3
2.1 사용자 시뮬레이션 = 4
2.2 빠른 강화학습 방법들 = 5
제 3 장 사용자 모델을 이용한 강화 학습 = 8
3.1 강화 학습 = 8
3.2 대화상태, 응답행위와 사용자 모델 = 10
3.3 빠른 강화학습 기법 = 14
3.3.1 적합성 예측 = 14
3.3.2 적합성 계산 = 16
제 4장 빠른 강화학습을 사용한 대화 시스템 구현 = 20
4.1 시스템의 구조와 학습 과정 = 20
4.2 대화 시스템의 대화상태와 응답행위 = 22
제 5장 실험 및 평가 = 25
5.1 실험 환경 = 25
5.2 모의 사용자 = 27
5.2.1 사용자 행동 = 28
5.2.2 자동화된 대화 평가 = 30
5.2.3 모의 사용자의 신뢰성 = 31
5.3 학습 속도 및 회수와 학습된 대화 전략 비교 = 32
제 6장 결론 및 향후 과제 = 36
참고문헌 = 37
부록1-대화 평가 실험 지문 예 = 41
그림목차
그림 1 탐색과 이용 딜레마에 대한 전략들 = 10
그림 2 학습 과정에서의 적합성 예측 = 15
그림 3 적합성 예측을 사용한 응답행동 범위 축소 = 16
그림 4 FILL, RECOMMEND 응답행위의 적합성 계산 = 17
그림 5 CHANGE, REFILL 응답행위의 적합성 계산 = 18
그림 6 대화 시스템의 구조 = 21
그림 7 제안 시스템과 비교 시스템의 응답행위 선택 과정 비교 = 26
그림 8 학습 대화 예제 = 27
그림 9 대화 시스템과 사용자 간의 상호작용 = 29
그림 10 제안 시스템에서 학습 초기 대화 평가 분포 = 34
그림 11 비교 시스템에서 학습 초기 대화 평가 분포 = 35
그림 12 대화 평가 일치도 실험 지문 예 = 42
표목차
표 1 제안 모델에서의 응답행위 정의 = 11
표 2 사용자 모델 내역 = 13
표 3 대화 시스템에서의 슬롯 정의 = 22
표 4 대화 시스템에서 사용하는 응답행위 정의 = 23
표 5 대화 시스템의 발화 타입과 사용자 대응 = 29
표 6 자동화된 대화 평가 기준 = 30
표 7 사용자 및 모의 사용자 간 대화 평가 일치도 = 32
표 8 제안 시스템과 비교 시스템의 학습 회수 = 33
표 9 제안 시스템과 비교 시스템의 학습 시간 = 33
표 10 각 대화 전략을 사용한 대화 평가 점수 = 34

more