검색 상세

LEODOCS: RAG시스템성능평가 도구개발및구조화품질평가연구

LEODOCS: Development of a Performance Evaluation Tool for RAG Systems and a Study on Structured Output Quality Assessment

초록(요약문)

본 연구는 문서 기반 질의응답(DocVQA) 환경에서 RAG(Retrieval-Augmented Generation) 시스템의 성능 향상을 위해 전처리 품질의 영향을 정량적으로 분석하 고, 자동 평가, 개선 시스템인 LEODOCS를 제안하였다. LEODOCS는 파이프라인 의 네 단계(파싱, 검색, 생성, 검증)에서 병목을 자동 진단하고, 규칙 기반 및 LLM 기반의미평가를결합한하이브리드평가방식을통해성능을측정한다. DocVQA 데이터셋(100개 문서, 289문항)을 대상으로 한 실험에서 평균 정확도가 60.21%에 서 78.20%(+17.99%p)로 향상되었으며, 구조화 파싱(Structured Parsing, 86.0%)과 테이블 파싱(Table Parsing, 83.9%)이 주요 개선 요인으로 확인되었다. 반면 키워드 검색(Keyword Search)과프롬프트최적화(Prompt Optimization)는데이터셋특성상 질의/정답 구조가 고정되어 제한적 개선 효과를 보였다. 연구 결과, 전처리 품질이 RAG 시스템의 성능 상한을 결정함을 실증적으로 입증하였으며, LEODOCS는 평 가, 개선, 운영을 통합한 새로운 RAG 품질 관리 프레임워크로서 학술적, 산업적 의의를갖는다.

more

목차

제 1 장 연구 배경 및 필요성 1
1.1 연구 배경 1
1.2 LLM 환각과 신뢰성 문제 2
1.3 Retrieval-Augmented Generation(RAG)의 개념과 파이프라인 2
1.4 문서 기반 RAG와 문서 읽기 시스템 4
1.5 온프레미스(On-premise) RAG 환경과 평가 체계의 필요성 6
1.6 연구 목표 및 범위 8
1.7 세부 연구목표 11
1.7.1 세부 연구목표 1: 문서 기반 RAG 평가 프레임워크 LEODOCS의 설계 및 구현 11
1.7.2 세부 연구목표 2: 전처리 및 구조화 품질이 RAG 성능에 미치는 영향의 정량적 규명 12
1.7.3 세부 연구목표 3: 자동 진단, 개선 루프의 효과성 검증 13
제 2 장 선행 연구 분석 15
2.1 RAG 시스템 평가 관련 연구 동향 15
2.1.1 RAGAS와 WikiEval 15
2.1.2 ARES 17
2.1.3 RAGEval과 DRAGONBall 17
2.1.4 RGB 18
2.1.5 CRAG 19
2.1.6 RAGBench와 TRACe 20
2.2 문서 기반 RAG 및 문서 읽기 벤치마크 연구 20
2.2.1 DOCBENCH 21
2.2.2 DocVQA 및 기타 벤치마크 22
2.3 문서 구조화 및 전처리 품질 관련 연구 23
2.4 산업 적용 사례 및 오픈소스 활용 24
2.4.1 클라우드 기반 매니지드 RAG 평가: Amazon Bedrock, OpenAI 등 24
2.4.2 벡터 데이터베이스, 플랫폼 업체: Pinecone, Qdrant, Chroma 등 26
2.4.3 전용 RAG 평가 도구와 MLOps 솔루션 27
2.4.4 산업 적용 사례에서 드러난 공통 한계와 시사점 28
2.5 선행 연구의 한계와 본 연구의 위치 30
제 3 장 연구 방법 33
3.1 개요 33
3.2 시스템 아키텍처 35
3.2.1 성능 평가 모듈 36
3.2.2 이슈 분석 모듈 37
3.2.3 개선 전략 생성 모듈 39
3.2.4 개선 실행 및 검증 모듈 40
3.3 구현 세부 사항 42
3.3.1 OCR 개선 파이프라인 43
3.3.2 LLM 기반 오류 수정 44
3.3.3 하이브리드 평가 방식 45
3.3.4 데이터 저장 및 분석 구조 47
3.4 실험 설정 48
3.4.1 데이터셋 48
3.4.2 기준선 RAG 파이프라인 48
3.4.3 평가 지표 49
3.5 구현 환경 50
제 4 장 실험 52
4.1 실험 목적 및 검증 항목 52
4.2 데이터셋과 평가 프로토콜 52
4.3 전체 성능 53
4.4 RAG 파이프라인 단계별 개선 전략 효과 분석 53
4.4.1 문서 파싱 단계 개선 효과 54
4.4.2 검색 및 생성 단계 개선 효과 54
4.5 개선 방법별 적용 빈도 55
4.6 문서별 성능 변화 55
4.7 대표 사례 분석 56
4.7.1 큰 폭의 성능 개선 사례 56
4.7.2 성능 하락 사례(Regression) 57
4.8 종합 분석 및 고찰 58
4.8.1 전체 성능 관점에서의 해석 58
4.8.2 전처리 및 구조화 전략의 지배적 영향 58
4.8.3 단계별 전략 효과와 세부 연구목표의 검증 59
4.8.4 LEODOCS 프레임워크의 역할과 의의 60
4.8.5 한계 및 향후 연구 방향 60

more