RAG 기반 자연어 질의 Text-to-SQL: 규칙 제약과 프롬프트 최적화를 활용한 GPT 기반 질의 시스템 : 규칙 제약과 프롬프트 최적화를 활용한 GPT 기반 질의 시스템
RAG-Based Natural Language Text-to-SQL : A GPT-Powered Query System Leveraging Rule Constraints and Prompt Optimization
- 주제(키워드) AI , LLM , SQL , RAG , Prompt , Rule Constraints , 인공지능 , 대규모 언어 모델 , 쿼리 , 프롬프트 , 규칙 제약
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 정성원
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082320
- UCI I804:11029-000000082320
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
본 연구는 OpenAI GPT-4를 활용하여 한국어 자연어 질의를 SQL로 변환 하는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기반 질의 시스템을 제안한다. 거대 언어모델(LLM)의 발전으로 Text-to-SQL 기술이 주목받고 있으나, 실무 적용을 위해서는 데이터베이스 스키마 준수와 논 리적 정확성이 안정적으로 보장되어야 한다. 이에 본 연구는 RAG 파이프라인을 통해 데이터베이스 카탈로그 및 제약 규칙 저장소로부터 질의와 관련된 테이블·컬럼 메타데이터와 규칙 기반 제약(Rule Constraints)을 검색·구조화하여 프롬프트에 증강하고, 프롬 프트 최적화를 통해 모델 출력(SQL)을 통제한다. 또한 GPT 가 생성한 SQL 을 실제로 실행한 결과를 기반으로 오류를 감지하고, 오류 발생 시 모델 이 질의를 수정하도록 유도하는 실행 기반 교정 피드백 루프를 도입하여 시스템의 신뢰성을 높였다. 영국 온라인 소매 데이터베이스를 활용한 실험 결과, 별도의 파인튜닝 없이도 다중 조인 및 그룹 집계 등 복잡한 SQL 을 정확히 생성하여 높은 성능을 확인하였다. 사람이 작성한 정답 SQL과 비교했을 때에도 실행 정 확도와 구문 구조 측면에서 높은 일치율을 보였다. 결론적으로, 본 연구는 RAG 기반 프롬프트 증강과 규칙 적용, 실행 결 과 기반 교정만으로도 LLM 기반 Text-to-SQL 의 실무 활용 가능성을 검증 하였으며, SQL 에 익숙한 분석가가 자연어로 데이터를 손쉽게 질의하고 결과를 검토·검증함으로써 데이터 분석 효율을 높일 수 있음을 시사한다.
more초록(요약문)
This study proposes a Retrieval-Augmented Generation (RAG)–based system that converts Korean natural language queries into SQL using OpenAI GPT. While recent advances in large language models (LLMs) have accelerated interest in Text-to-SQL, practical deployment still requires strict adherence to database schemas and logical correctness of generated queries. To address these requirements, the proposed system adopts a RAG pipeline that retrieves and structures relevant database knowledge— such as table/column metadata and rule constraints—from the database catalog and a curated constraint repository and injects this information into a prompt optimized for controllable SQL generation. In addition, the system executes the GPT-generated SQL and uses execution outcomes as feedback to drive an iterative correction loop, improving reliability when errors or inconsistencies occur. Experiments conducted on a UK online retail database demonstrate that the system can generate complex SQL queries, including multi- table joins and group aggregations, without any additional fine-tuning. Compared with human-written ground-truth SQL, the generated queries show high agreement in both execution accuracy and syntactic structure. Overall, this study verifies the practical applicability of LLM- based Text-to-SQL through RAG-based prompt augmentation, rule constraints, and execution-guided correction alone, suggesting that analysts familiar with SQL can query data in natural language while efficiently reviewing and validating results.
more목차
제 1 장 서론 3
제 1 절 연구 배경 및 문제 제기 3
제 2 절 연구 목적 및 기여 5
제 3 절 논문 구성 6
제 2 장 이론적 배경 8
제 1 절 선행 연구에 대한 고찰 8
제 2 절 대규모 언어모델 기반 접근 11
제 3 절 본 연구의 차별성 12
제 3 장 연구 시스템 설계 및 구현 15
제 1 절 시스템 개요 15
제 2 절 Azure OpenAI GPT API 연동 19
제 3 절 데이터 수집 및 전처리 20
제 4 절 데이터베이스 및 스키마 처리 24
제 5 절 프롬프트 구성과 규칙 제약 26
제 6 절 사용자 인터페이스 및 상호작용 흐름 29
제 7 절 GPT 기반 SQL 생성 및 실행 로직 30
제 8 절 오류 감지와 규정 구조 31
제 4 장 실험 및 평가33
제 1 절 실험 목적 및 개요 33
제 2 절 실험 설정 34
제 3 절 평가 방법론 37
제 4 절 질의 유형별 평가 결과 분석 39
제 5 절 주요 오류 및 불일치 사례 분석 47
제 5 장 논의 및 시사점 55
제 1 절 분석 결과 종합 해석 55
제 2 절 실무 적용 방향 57
제 3 절 연구 한계 및 향후 방향 58
제 6 장 결론 61
참고문헌 64

