RAG 기반 LLM을 활용한 기업 신용등급 예측 : 기업신용평가 설명 및 전망을 중심으로
Predicting corporate credit rating using RAG-based LLM: Focusing on corporate credit rating explanation and outlook
- 주제어 (키워드) 자연어처리 , 기업신용등급 , 기업 신용등급 예측 , 평가 , 평가예측 , 기업 부실예측 , 예측모델 , 기업 재무제표 , 언어모델 , 언어 예측모델; LLM , Large Language Model , Llama , RAG , Prompt engineering
- 발행기관 서강대학교 정보통신대학원
- 지도교수 장부루
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000078976
- UCI I804:11029-000000078976
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
현재 국내 기업들은 각 기업에 매겨진 신용등급을 통해 해당 기업의 미래 가치를 판단하고 있으며, 이는 기업의 운영과 투자에서 중요한 지표로 여겨진다. 신용평가 기준은 지속해서 발전하고 있으며, 기업의 자산과 이익률과 같은 정량적 수치를 바탕으로 평가하던 방식에서 이익 흐름과 채무 관계 등 비정량적 정보를 종합적으로 고려하여 가치를 측정하는 방식으로 변화하고 있다. 현재 대다수 신용평가 업체들은 기업의 재무 정보를 기반으로 기업 평판 등 다양한 자료를 함께 분석하여 평가원들이 신용도를 직접 측정한다. 이 과정에서 평가원의 개인적인 주관이 개입될 가능성이 있어 정확한 평가가 어렵다는 문제가 있다. 더불어, 최근에는 이러한 신용평가가 부실 우려가 있는 기업을 정확하게 분석하지 못한다는 비판도 제기되고 있다. 따라서 본 논문에서는 기업의 효과적인 운영과 투자자의 정확한 판단을 지원하기 위해 언어 모델(LLM)의 탁월한 언어적 특성과 분석 능력을 활용하여 기업 신용등급을 예측하고 평가하는 모델을 구축하였다. 또한, 기업 신용평가에 중요하다고 판단되는 데이터를 RAG(Retrieval-Augmented Generation)를 활용하여 LLM 의 성능을 더욱 향상시키고자 하였다. 2019 년부터 2023 년까지의 기업 등급, 재무제표, 의견서 등의 데이터를 수집하였으며, LLM 베이스 모델로 Llama3 을 선택하여 적용하였다. 본 연구에서는 리커트 척도와 정량적 평가를 통해 베이스 모델과의 등급 예측 정확도 및 평가 문장 생성 능력을 비교 분석하여 그 정확도를 측정하였다. 연구 결과, 2024 년도 의견서 내용과 LLM 이 예측한 등급 및 회사의 전망을 비교한 결과, 매우 유사한 결과를 나타냈다. 이는 LLM 기반 신용등급 예측 모델이 기존 방식과 비교해도 신뢰성 있는 결과를 제공함을 시사하며, 앞으로의 신용평가 시스템 개선에 중요한 역할을 할 수 있음을 보여준다. 이를 통해 사람이 평가하던 기존 기업신용평가 방법의 문제였던 주관적인 평가와 낮은 예측률의 문제를 해결하고, 객관적인 언어적 데이터 요소만을 고려하여 기업평가 예측 모델을 제안하였다. 이러한 모델은 부정확한 기업 등급으로 인한 시장의 혼란을 줄이고 투자자에게 정확한 정보를 제공하는 데 기여할 것으로 기대된다.
more초록 (요약문)
Currently, domestic companies assess their future value based on the credit ratings assigned to them, which serve as crucial indicators for corporate operations and investments. The criteria for credit evaluation have continuously evolved, transitioning from methods that primarily assessed quantitative metrics like assets and profit rates to approaches that comprehensively consider non- quantitative information such as profit flows and debt relationships. Most credit rating agencies today analyze a variety of data, including financial information and corporate reputation, to directly measure creditworthiness. However, this process can be prone to subjective judgments by evaluators, leading to issues with accuracy. Additionally, recent criticisms highlight that these traditional credit evaluations fail to accurately analyze companies with potential insolvency risks. Therefore, in this paper, we constructed a model to predict and evaluate corporate credit ratings by utilizing the excellent linguistic characteristics and analysis capabilities of the language model (LLM) to support effective operation of companies and accurate judgment of investors. In addition, we attempted to further improve the performance of LLM by utilizing RAG (Retrieval- Augmented Generation) on data deemed important for corporate credit evaluation. Data such as corporate ratings, financial statements, and opinions from 2019 to 2023 were collected, and Llama3 was selected and applied as the LLM base model. In this study, we measured the accuracy by comparing and analyzing the rating prediction accuracy and evaluation sentence generation ability with the base model through Likert scale and quantitative evaluation. The study's findings reveal that the predicted ratings and outlooks for companies in 2024, as generated by the LLM, closely align with actual evaluation statements. This indicates that the LLM-based credit rating prediction model provides reliable results comparable to traditional methods and suggests significant potential for improving future credit evaluation systems. By addressing the subjective nature and low prediction accuracy of traditional credit rating methods, our proposed model solely relies on objective linguistic data elements for evaluation. This approach is expected to reduce market confusion caused by inaccurate corporate ratings and provide investors with precise information, thus significantly contributing to corporate operations and investment decisions.
more목차
제 1 장 서론 9
1.1. 연구 배경 9
1.2. 연구목표 10
1.3. 연구방법 12
제 2 장 관련 연구 14
2.1. 모델 최적화 기법 14
2.1.1. LLaMA 14
2.1.2. 파인튜닝(Fine-Tuning) 14
2.1.3. PEFT (Parameter-Efficient Fine-Tuning) 15
2.1.4. LoRA (Low Rank Adaptation) 16
2.2. 검색 증강 생성 및 관련 기술 17
2.2.1. RAG 17
2.2.2. Vector DB 17
2.2.3. LangChain 18
2.3. 기업신용평가 예측 . 20
2.3.1. 기업신용평가 데이터 선행연구 20
2.3.2. 기업 신용 예측 모형 선행연구 20
제 3 장 koLlamaCredit 모델 22
3.1. 데이터 선정 22
3.1.1. 기업신용평가 학습 데이터 23
3.1.2. 기업신용등급 데이터 24
3.1.3. 기업 재무제표 27
3.1.4. 기업평가의견서 27
3.2. koLlamaCredit 모델의 개발 27
제 4 장 연구 결과 30
4.1. 성능 평가 방법 30
4.2. 연구모델 실험 결과 34
4.3. 성능평가 결과 36
제 5 장 결론 46
5.1. 결론 46
5.2. 향후 연구 계획 47
제 6 장 참고 문헌 50