검색 상세

QLoRA 기법의 sLLM 파인튜닝을 통한 한국어 대화 상태 추적 성능 개선

Performance Improvement of Korean Dialogue State Tracking using sLLM Fine-tuning with QLoRA technique

초록 (요약문)

최근 개인이나 작은 기업도 각자 업무에 최적화된 LLM을 쉽게 개발할 수 있게 되었다. 이러한 현상이 가능해진 이유는 두 가지로 설명할 수 있다. 첫째, 다양한 기업들이 오픈소스로 LLM Base 모델과 파인튜닝 모델을 적극적으로 공유하고 있다. 둘째, 적은 하드웨어 리소스로도 모델을 파인튜닝할 수 있는 양자화 및 PEFT(Parameter-Efficient-Fine-Tuning)의 기술적 발전이 있었다. 본 연구에서 QLoRA방법을 통해 오픈소스 LLM을 파인튜닝하여 한국어 대화 상태 추적 과제에서 높은 성능에 도달했다. Solar모델과 Llama3모델을 각각 4bit, 8bit로 양자화하여 파인튜닝을 실시했고 모델의 성능을 평가했다. 실험 결과 Solar모델이 Llama3모델보다 성능이 뛰어났으며, 특히 Solar 8bit양자화 모델에서 가장 높은 성능을 보였다. WoS-v.1.1의 모든 Validation 데이터(1,000대화)로 검증했을 때 JGA 74.61, Slot F1 96.67로 현재까지 논문에 발표된 벤치마크 점수 중 가장 높았다. 모델 양자화 방법에 따른 모델의 성능은 Solar와 Llama3에 다르게 나타났다. Solar의 경우 8bit가 4bit 모델보다 뛰어난 성능을 보인 반면, Llama3는 4bit 모델의 성능이 더 뛰어났다. 더 많은 실험 결과가 필요하지만, 전반적으로 각 모델에 따라 최적의 양자화 형태가 다를 수 있음을 보였다. 따라서 모델 양자화를 시도하려는 연구자들은 1가지 방법만 고수할 것이 아니라 다양한 양자화 방법을 적용해서 모델들의 성능을 테스트할 필요가 있다. Solar 8bit양자화 모델의 성능을 세부적으로 점검하기 위해 300개 대화셋에 대한 모델의 오답을 정성적으로 분석하고 크게 8가지 유형으로 분류했다. Value의 이름이 잘못 출력되는 경우(26.3%), Label데이터 오류(23.3%), 대화에 있는 State를 추론하지 못하는 경우(22.6%), 지역 추론(8.1%), 거짓 State 생성(7.5%), 잘못된 Value 추론(6.7%), 요일 추론(4.6%), 성급한 추론(0.8%) 순으로 나타났다. 각 오류의 특성과 이에 따른 모델 성능 개선 방법을 결론에 작성했으며, 세부 유형별 사례를 부록에 제시했다.

more

초록 (요약문)

In recent years, it has become easier for individuals and small companies to develop LLMs that are optimized for their work. There are two reasons why this is possible. First, various companies are actively sharing LLM base models and fine-tuning models as open source. Second, there have been technological advances in quantization and Parameter-Efficient-Fine-Tuning (PEFT) that allow models to be fine-tuned with less hardware resources. In this study, I used the QLoRA method to fine-tune an open-source LLM to achieve high performance on the Korean dialog state tracking task. The Solar model and Llama3 model were quantized to 4bit and 8bit, respectively, to perform fine-tuning and evaluate the performance of the models. The experimental results showed that the Solar model outperformed the Llama3 model, especially the Solar 8-bit quantized model. When validated with all validation data (1,000 conversations) of WoS-v.1.1, JGA 74.61 and Slot F1 96.67 are the highest benchmark scores published in the literature to date. The performance of the model depending on the model quantization method was different for Solar and Llama3. For Solar, the 8-bit outperformed the 4-bit model, while Llama3 outperformed the 4-bit model. While more experimental results are needed, the overall results show that the optimal form of quantization may be different for each model. Therefore, researchers who want to quantize their models should test the performance of their models with different quantization methods instead of sticking to one method. To examine the performance of the Solar 8-bit quantized model in detail, I qualitatively analyzed the model's incorrect answers on 300 dialog sets and categorized them into eight types. These are: incorrectly naming values (26.3%), label data errors (23.3%), failing to infer the state of the conversation (22.6%), inferring regions (8.1%), generating false states (7.5%), inferring wrong values (6.7%), inferring days of the week (4.6%), and making hasty inferences (0.8%). I characterize the nature of each error and how to improve model performance in the conclusion, and provide examples of each type in the appendix.

more

목차

제 1 장 서론 1
제 1 절 연구의 배경 및 목적 1
제 2 절 본 연구의 공헌점 2
제 2 장 관련 연구 3
제 1 절 목적 지향 대화 시스템 3
제 2 절 대화 상태 추적 과제 4
제 3 절 효율적 파라미터 파인 튜닝(PEFT) 7
제 4 절 모델 양자화 및 QLoRA 9
제 3 장 한국어 대화 상태 추적 성능 개선을 위한 제안 11
제 1 절 QLoRA방식의 모델 파인튜닝과 모델 성능 비교 11
제 2 절 Best모델의 추론 오류에 대한 질적 분석 14
제 4 장 실험 및 분석 15
제 1 절 데이터 선정 및 전처리 15
제 2 절 모델 학습 방법 및 입력 프롬프트 18
제 3 절 평가 방법 19
제 4 절 학습 방법 및 실험 환경 20
제 5 절 모델 훈련 21
제 6 절 모델 성능 평가 23
제 7 절 타 연구 모델과 성능 비교 24
제 8 절 모델의 오류 결과에 대한 질적 분석 25
제 5 장 결론 29
참고 문헌 31

more