검색 상세

Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System

종단간 목적지향형 대화시스템을 위한 과제별 최적화된 적응기

초록

Task-Oriented Dialogue (TOD) systems are designed to carry out specific tasks by tracking dialogue states and generating appropriate responses to help users achieve defined goals. Recently, end-to-end dialogue models pre-trained based on large datasets have shown promising performance in the conversational system. However, they share the same parameters to train tasks of the dialogue system (NLU, DST, NLG), so debugging each task is challenging. Also, they require a lot of effort to fine-tune large parameters to create a task-oriented chatbot, making it dif- ficult for non-experts to handle. Therefore, we intend to train relatively lightweight and fast models compared to PLM. In this paper, we propose an End-to-end TOD system with Task-Optimized Adapters which learn independently per task, adding only small number of parameters after fixed layers of pre-trained network. We also enhance the performance of the DST and NLG modules through reinforcement learning, overcoming the learning curve that has lacked at the adapter learning and enabling the natural and consistent response generation that is appropriate for the goal. Furthermore, by comparing our methodology with the emerging methods utilizing ChatGPT, we demonstrate the robustness of our approach and limitations of ChatGPT in TOD, particularly for the DST task. As results of the experiment, our method shows competitive performance on the MultiWOZ benchmark com- pared to the existing end-to-end models. In particular, we attain state-of-the-art performance on the DST task of 2.2 dataset.

more

초록

목적지향형 대화 시스템은 대화 상태를 추적하고 적절한 응답을 생성하여 사용자가 정의된 목표를 달성하도록 설계되었다. 최근 대규모 데이터셋을 기반으로 사전 훈련된 종단간 대화 모델이 목적지향형 대화 시스템에서 뛰어난 성능을 보이고 있다. 그러나 이러한 모델들은 시스템을 구성하는 여러 과제(언어 이해, 대화 상태추적, 응답 생성)를 훈련하기 위해 모든 매개변수를 공유하며 학습하기 때문에 각 과제를 개별적으로 개선하기 어렵다는 문제가 있다. 또한, 대규모 매개변수를 미세 조정하기 위해서는 높은 컴퓨팅 자원과 시간이 필요하다. 따라서 우리는 사전 학습된 모델의 미세조정에 비해 상대적으로 가벼우면서 빠른 방식으로 모델을 학습시키려고 한다. 본 논문에서는 사전 훈련된 네트워크의 매개변수를 고정시킨 뒤, 고정된 레이어 뒤에 소수의 매개변수만 추가하여 각 과제별로 독립적으로 학습하는 Task-Optimized Adapters를 가진 종단간 목적 지향형 대화 시스템을 제안한다. 또한 강화학습을 통해 대화 상태 추적 및 응답 생성 모듈의 성능을 향상시켜, 적응기 학습에서 예상되는 성능 하락을 극복하고, 목표에 부합하며 자연스러운 응답 생성을 가능하도록 한다. 추가적으로, 최근 연구되는 ChatGPT를 활용하는 TOD 방법론과 비교하여, 우리 방법론의 우수성을 입증하는 한편, TOD에서의 ChatGPT의 한계를 지적한다. 마지막으로, 실험의 결과로 우리의 방법론이 모든 지표에서 충분히 견줄 만한 성능이 나왔으며, 특히 MultiWOZ 2.2의 대화 상태 추적 과제에서 새로운 최고 성능을 달성하였다.

more

목차

1 Introduction 1
1.1 Overview 1
1.2 Contribution 3
2 Background 4
2.1 Task-Oriented Dialogue 4
2.2 ChatGPT Capabilities 6
3 Methodology 9
3.1 Methodology 9
3.1.1 Adapter for each task (NLU, DST, NLG) 9
3.1.2 Metric-Aware Reinforcement Learning for DST & NLG module 11
3.1.3 ChatGPT Refinement Process for DST 13
4 Experiments 16
4.1 Experimental Setup 16
4.1.1 Datasets 16
4.1.2 Baselines & Settings 16
4.2 Experimental Results 18
4.2.1 Dialogue State Tracking 18
4.2.2 End-to-End Response Generation 20
4.2.3 Further Analysis of Reinforcement Learning 21
w/o Reinforcement Learning 21
Hyperparameters of REINFORCE 22
a of DST-optimized adapter 23
a and b of NLG-optimized adapter 23
4.2.4 ChatGPT Refinement Process Qualitative Analysis 24
5 Conclusion 27
5.1 Summary 27
5.2 Limitations 28
Appendices 29
A Units of Adapters 29
B w/o Reinforcement Learning of TOATODsmall 30
C Implementation Details 30
Bibliography 31

more