대규모 언어 모델을 활용한 법률 도메인 특화 지시 학습 데이터 증강 파이프라인
Data Augmentation Pipeline for Domain-Specific Instruction Learning Using Large Language Models in the Legal Domain
- 발행기관 서강대학교 일반대학원
- 지도교수 구명완
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000078917
- UCI I804:11029-000000078917
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
지시 학습은 대규모 언어 모델이 사용자의 질문 의도를 파악하고, 사용자 지시에 따른 답변을 적절하게 생성하기 위한 학습 방법이다. 사전 학습이 어노테이션이 필요하 지 않은 대규모 텍스트 코퍼스가 필요한 것과는 달리, 지시 학습은 사용자 질문 - 모델의 답변 쌍으로 이루어진 지도 학습 데이터가 필요하다. 양질의 지시 학습 데이터를 사람 이 수작업으로 작성하는 데에 한계가 있기 때문에, 대규모 언어 모델을 사용하여 지시 학습 데이터를 증강하는 방법들이 제안되었다. 특히 한국어 법률 도메인 특화 데이터를 증강함에 있어서는 데이터의 다양성 뿐만 아니라 정확성 또한 중요하기 때문에, 증강 데이터의 품질을 높이기 위한 프롬프팅 방법론의 중요성이 대두되었다. 본 논문에서는 한국 법률 도메인 특화 소형 대규모 언어 모델을 학습하기 위한 지시 데이터 증강방법 론인 Self-Plan 프롬프팅을 제안한다. 이 방법론은 대규모 언어 모델이 스스로 데이터 분석 및 증강 전략을 수립하도록 하여 사람의 수작업을 최소화하고, 데이터별 맞춤형 다각도의 증강을 가능하게 한다. 제안한 방법으로 증강된 데이터셋을 사용하여 훈련된 LLaMA-2 기반의 7B 규모 소형 대규모 언어 모델은 동일 크기의 다른 모델들과, GPT- 3.5-turbo의 성능을 능가하였으며, 학습 데이터 증강에 사용한 모델인 GPT-4o 보다도 GPT win rate에서 40.16% 평가 데이터에서 더 선호되며 큰 모델들의 성능에 근접하는 결과를 보였다.
more초록 (요약문)
Instruction tuning is a training method designed to enable large language mod- els to generate appropriate responses based on user instructions. Instruction tuning necessitates supervised learning data consisting of user question and model answer pairs. Due to the limitations of manually crafting high-quality instruction tun- ing data, methods have been proposed to augment this data using large language models. Specifically, in augmenting data specialized for the Korean legal domain, it is critical to consider not only the diversity of the data but also its accuracy, highlighting the importance of prompting methodologies to enhance the quality of augmented data. This paper proposes the Self-Plan prompting methodology for aug- menting instruction tuning data to train a Korean legal domain specialized model. Self-Plan allows large language models to autonomously establish data analysis and augmentation strategies, thereby minimizing human labor and enhancing diversity of augmented dataset. Using the augmented dataset to train a LLaMA-2 based 7B small-scale large language model and evaluating it within the Korean legal domain, results showed that it surpassed the performance of similarly sized models and GPT- 3.5-turbo in GPT win rate, and was preferred by 40.16% over the GPT-4o used for data augmentation, closely approaching the performance of much larger models.
more목차
Chapter 1. 서론 3
1.1 대규모언어모델과지시학습데이터증강방식연구의필요성 3
1.2 도메인 특화 소형 대규모 언어 모델 (in-domain sLLM) 학습 연구의필요성 6
1.3 본연구의기여점 8
1.4 연구의개요 10
Chapter 2. 관련 연구 11
2.1 대규모언어모델을활용한지시데이터증강방법론 11
2.2 대규모언어모델의프롬프트엔지니어링기법. 13
2.2.1 Chain-of-Thought와 후속 프롬프팅 방법론 14
2.2.2 논리추론과관련된프롬프팅방법론 15
2.3 대규모 언어 모델의 기획 능력과 프롬프팅 엔지니어링 자동화 16
2.4 한국어법률도메인특화언어모델관련연구 18
Chapter 3. Slef-Plan 증강 프롬프팅을 활용한 법률 도메인 특화 지시 학습 데이터 증강 22
3.1 Self-Plan증강프롬프팅개요 22
3.2 1단계:데이터유형분석단계 24
3.3 2단계:증강전략수립단계 30
3.4 3단계:데이터생성단계 34
Chapter 4. 실험 결과 39
4.1 실험환경 39
4.1.1 데이터셋 39
4.1.2 모델 41
4.1.3 평가방법 43
4.2 실험결과 44
4.2.1 데이터셋분석 45
4.2.2 모델성능비교 54
Chapter 5. 결론 57
Bibliography 59