거대언어모델을 이용한 과학기술 전문 용어 띄어쓰기 성능 개선에 대한 연구
Improve the spacing accuracy of scientific and technical terms Using the Large Language Model
- 발행기관 서강대학교 정보통신대학원
- 지도교수 소정민
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000076748
- UCI I804:11029-000000076748
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
띄어쓰기는 문장의 가독성과 의미 전달에 중요한 역할을 한다. 그러나 기존의 언어모델들은 도메인 기반이어서 일반적인 문장에 대한 성능이 한계가 있고, Out-of-Vocabulary(OOV) 문제로 인해 새로운 문장에 대한 대응이 어려움이 있다. 본 논문은 이러한 문제에 대응하고자, 거대언어모델을 사용하여 현 상황을 분석하고, 한국어 띄어쓰기가 가능하도록 방법을 연구했다. 논문에 활용한 데이터셋은 맞춤법 교정 말뭉치 데이터, 기술과학 요약 데이터, 전문분야 심층 인터뷰 데이터 총 3가지 활용했다. 그리하여 기존에 띄어쓰기가 전혀 되지 않는 거대언어모델을 한국어 띄어쓰기가 가능하도록 전용 모델을 만들었다. 이를 통해 기존에 거대언어모델에서 띄어쓰기가 불가능한 부분을 효과적으로 극복했다. 더 나아가, 일반적인 문장 외에도 전문분야에서 자주 사용되는 문장에 대해서 띄어쓰기 모델 성능 향상해서 OOV 문제를 해결하고 새로운 문장에 대한 띄어쓰기 성능을 높임으로써 모델의 신뢰성을 향상했다. 본 논문은 거대언어모델을 활용하여 한국어 띄어쓰기에 특화된 모델을 개발하고, 이를 통해 OOV 문제를 극복하며 일반적인 문장과 전문분야의 텍스트에 대한 띄어쓰기 성능을 향상했다. 이는 기존에 제한된 띄어쓰기 모델에서 다양한 분야의 문장을 처리하는 모델을 통해 확장성이 높아 거대언어모델을 활용한 한국어 띄어쓰기 모델은 자연어처리의 효율성을 높이는 데 기여할 것으로 기대된다.
more초록
Spacing plays a crucial role in the readability and conveyance of meaning in a sentence. However, existing language models are domain-specific, limiting their performance on general sentences, and they face challenges in addressing Out-of-Vocabulary (OOV) issues, making it difficult to handle new sentences. In this paper, we aim to address these issues by analyzing the current situation using a massive language model. We research methods to enable spacing for the Korean language. The dataset utilized in the paper included a spelling correction corpus, technical and scientific summary data, and in-depth interview data in specialized fields, totaling three types. As a result, a dedicated model for Korean spacing was developed to enable spacing for Korean in a massive language model that initially lacked any spacing. This effectively addressed areas where spacing was previously impossible in the massive language model. Furthermore, beyond general sentences, the performance of the spacing model was enhanced for sentences frequently used in specialized fields, resolving OOV issues and improving spacing accuracy for new sentences. This contributed to an overall improvement in the model's reliability. This paper develops a specialized model for Korean spacing using a massive language model, overcoming OOV issues, and enhancing spacing performance for both general sentences and texts in specialized fields. This contribution is expected to improve the efficiency of natural language processing by utilizing a versatile model capable of handling sentences from various domains, thus providing scalability beyond the limitations of traditional spacing models.
more목차
제 1 장 서론 1
1.1. 연구 배경 및 목적 1
1.2. 연구 대상 3
제 2 장 이론적 배경 5
2.1. 관련 연구 5
2.2. 언어모델 7
2.2.1. 언어모델의 주요 방식 7
2.2.2. LLM 8
2.2.3. Llama2 11
2.3. QLoRA 14
2.3.1. 등장 배경 14
2.3.2. Fine-tuning 방식 15
2.3.3. QLoRA 사용된 기술 16
제 3 장 설계 및 구현 17
3.1. 띄어쓰기 모델 학습 17
3.1.1. ko-llama-7b 17
3.1.2. 모델 설계 흐름 18
3.1.3. 학습 파라미터 설정 20
3.2. 가중치 변화량 22
3.3. 평가 방법 22
제 4 장 실험 및 성능 분석 24
4.1. 실험 환경 24
4.2. 데이터셋 25
4.2.1. 데이터셋 개요 25
4.2.2. 데이터 분포 25
4.2.3. 데이터 전처리 28
4.3. 실험결과 성능 분석 29
4.3.1. Llama-ko-7b 일반적인 띄어쓰기 fine-tuning 29
4.3.2. Llama-ko-7b 전문분야 데이터 fine-tuning 34
제 5 장 결과 및 분석 39
참고 문헌 41