LLM을 활용한 RAG 평가에 관한 연구 : 기업 간 ESG보고서 사례를 중심으로
- 주제어 (키워드) LLM , RAG , RAGAs , ESG , 지속가능경영보고서 , LLM (Large Language Model) , RAG (Retrieval-Augmented Generation) , RAGAs (Retrieval-Augmented Generation Assessment) , ESG , Sustainability Report
- 발행기관 서강대학교 일반대학원
- 지도교수 이군희
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 경영학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079781
- UCI I804:11029-000000079781
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
대규모 언어 모델(Large Language Model, LLM)은 방대한 양의 자연어 데이터를 정확하게 처리하여 최근 몇 년간 자연어 처리 분야(Natural Language Processing, NLP)에서 큰 성장을 이루었으나 최신 자료를 반영하지 못하고 할루시네이션이 발생하는 등의 한계점이 존재한다. 최근에는 이러한 한계점을 극복하기 위해 외부 문서를 벡터 데이터베이스에 저장하고 검색하는 방법인 검색증강생성(Retrieval-Augmented Generation, RAG)이 효과적인 대안으로 주목받고 있다. 본 연구는 RAG 기반 LLM의 성능을 정량적으로 평가하기 위해, 다양한 주제와 복잡한 정보를 포함하는 ESG 지속가능경영보고서를 데이터셋으로 활용하였다. 기업의 ESG 경영은 최근 기후 변화에 대한 사회적 관심이 급증함에 따라 기업 가치 평가의 중요한 요소로 자리 잡고 있다. 이를 집약적으로 나타내는 ESG 지속가능경영보고서는 기업의 핵심 전략과 성과를 이해관계자들에게 전달하는 중요한 도구로 활용된다. 그러나 이러한 보고서는 기업마다 공시 주제와 구조가 상이하며, 미래 지향적이고 복잡한 정보를 통합하여 표현하기 때문에 평가의 불확실성이 높은 한계가 있다. 따라서 지속가능경영보고서를 RAG 방법이 적용된 LLM을 활용해 답변의 품질을 평가함으로써, RAG의 성능을 평가하고 기업의 ESG 전략 수립에 실질적인 활용 가능성을 확인하였다. RAG 성능의 평가는 RAGAs(Retrieval-Augmented Generation Assessment) 프레임워크를 사용하였다. LLM 모델 종류와 프롬프트 유형, context의 개수, 코사인 유사도 등 다양한 변수를 조정하여 실험을 설계하였으며, 네 가지 평가 지표인 Context precision, Context recall, Faithfulness, Answer relevancy를 통해 성능을 분석하였다. 평가 결과, RAG 기반 LLM은 ESG 보고서 분석에서 높은 신뢰성과 적합성을 보였으나, 조건에 따라 각 지표에서 성능 차이가 나타났다. Faithfulness는 모델 종류, cutoff score, 프롬프트 유형에 따라 유의미한 차이를 보였고, Context recall은 모델 종류에만 영향을 받는 것으로 나타났다. 또한, cutoff score와 k값 사이에 트레이드오프(trade-off) 관계에 있음을 확인하여, 상황에 맞는 적절한 조건을 적용하여 최적의 RAG기반 LLM을 활용할 수 있음을 밝혔다. 답변을 직접 분석한 결과, 두 기업의 ESG 보고서를 기반으로 정확한 답변을 제공하는 것을 확인하였으나 LLM 모델에 따라 답변 구성 방식이 달라지며, 이에 따라 평가 지표에서 차이가 발생하였다. 이는 RAGAs의 평가 지표만을 신뢰하여 모델을 개발할 경우, 실제 성능을 왜곡할 가능성을 시사하며, 지표 평가 외에도 답변의 질적 분석이 필요함을 강조한다. 본 연구는 RAG 기반 LLM의 성능을 체계적으로 평가하고, 다양한 설정 조건에서 RAG의 최적화를 탐구했다는 점에서 의의를 갖는다. 특히, ESG 지속가능경영보고서를 사례로 활용하여 복잡한 정보를 처리하고 기업의 전략 비교 및 예측에 RAG 방법론이 효과적으로 적용될 수 있음을 확인하였다. 이를 통해 RAG 기반 LLM이 다양한 데이터 환경에서 활용 가능한 유용한 도구가 될 수 있음을 기대한다.
more초록 (요약문)
Large Language Models(LLMs) have significantly advanced the field of Natural Language Processing(NLP) by enabling precise analysis of extensive natural language datasets. Despite their capabilities, LLMs face notable limitations, including an inability to incorporate the most recent information and a propensity for generating hallucinations. Retrieval-Augmented Generation(RAG), a methodology that integrates external document retrieval from vector databases, has emerged as a promising solution to address these challenges. This study presents a quantitative evaluation of RAG-based LLM performance using ESG sustainability reports as the dataset. These reports encompass diverse topics and intricate information, making them particularly relevant for assessing the capabilities of RAG-based systems. ESG management has become a pivotal component of corporate valuation amid growing societal attention to climate change. ESG sustainability reports, which outline key strategies and achievements, are critical for stakeholder communication. However, their variation in disclosure themes, structural inconsistency across companies, and inclusion of forward-looking, complex information contribute to significant uncertainty in their evaluation. By examining the quality of responses generated through RAG-based LLMs, this study evaluates the performance of RAG and its practical applicability in corporate ESG strategy development. The performance assessment employed the Retrieval-Augmented Generation Assessment (RAGAs) framework, utilizing experimental conditions that varied key parameters such as LLM model type, prompt structure, number of retrieved contexts, and cosine similarity thresholds. Four evaluation metrics were used: Context Precision, Context Recall, Faithfulness, and Answer Relevancy. The findings indicate that RAG-based LLMs exhibit high reliability and relevance when analyzing ESG reports, albeit with variations in performance across evaluation metrics under different experimental conditions. Notably, Faithfulness was strongly affected by model type, cutoff scores, and prompt format, whereas Context Recall was primarily influenced by model type alone. A trade-off was identified between cutoff scores and the number of retrieved contexts (k-value), underscoring the importance of fine-tuning these parameters for optimal performance. Qualitative analysis further demonstrated that RAG-based LLMs provided accurate and contextually appropriate responses based on ESG reports from two companies. However, the structure and presentation of these responses varied across different LLM models, leading to disparities in evaluation metrics. These results suggest that exclusive reliance on quantitative metrics such as those in the RAGAs framework may fail to capture the full scope of model performance, highlighting the necessity of qualitative analysis to complement metric-based evaluations. This study contributes to the field by systematically evaluating RAG-based LLMs and exploring their optimization under diverse conditions. Through the lens of ESG sustainability reports, it showcases the effectiveness of RAG methodologies in managing complex information and facilitating the comparison and prediction of corporate strategies. These findings underline the potential of RAG-based LLMs as versatile tools for application across varied data environments.
more목차
I.서론 1
1. 배경 및 목적 1
2. 선행 연구 2
II. 연구 방법론 6
1. LLM 6
2. RAG 8
3. Retrieval Augmented Retrieval Assessment(RAGAs) 10
1) Context Precision 13
2) Context Recall 14
3) Answer Relevancy 14
4) Faithfulness 15
III. 연구 모형 16
1. 데이터 설명 16
2. RAG 아키텍처 구축 18
3. RAGAs 평가 22
4. LLM 구성 23
IV. RAGAs 평가 결과 25
1. LLM 모델에 따른 평가 25
1) GPT-4o 25
2) LLaMA 3.1 8B 30
2. 분산 분석 33
V. RAG 기반 LLM 답변 평가 38
1. RAGAs 생성 질문 38
2. RAGAs 생성 외 질문 41
1) ESG 정책 비교 (Compare) 41
2) ESG 정책 예측 (Prediction) 46
VI. 결론 및 고찰 50
참고 문헌 53