RAG 기반 다중 에이전트 시스템을 이용한 한국어 저자원 도메인 번역
Translation for Korean Low-Resource Domains Using a RAG-Based Multi-Agent System
- 주제(키워드) 검색증강생성 , 다중 에이전트 시스템 , 저자원 , 기계 번역 , 대규모 언어 모델 , RAG , Multi-Agent System , Low-Resource , Machine Translation , LLM
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 최준석
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082266
- UCI I804:11029-000000082266
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
전문 분야에서의 번역은 도메인에 특화된 전문 용어들의 정확한 번역이 전체 번역 품질에 큰 영향을 미친다. 그러나 기존의 전통적인 기계 번역 모델과 단일 LLM으로 구성된 모놀리식 시스템의 경우 병렬 말뭉치가 부족한 저자원 도메인에서 사전 학습된 지식이 부족한 문제로 전문 용어 번역에서 높은 성능을 내기 어렵다. 특히 한국어 저자원 도메인의 경우 병렬 말뭉치가 부족하기 때문에 추가적인 모델 학습 및 평가 또한 어려운 환경이다. 본 연구에서는 이러한 문제를 해결하기 위해서 영한 번역을 대상으로 초벌 번역, 도메인 용어 추출, 피드백 생성, 수정 번역의 4단계로 구성된 다중 에이전트 기반 번역 시스템을 설계하였다. 한국어 monolingual 데이터를 역번역하여 합성 병렬 말뭉치를 구축하고 이를 RAG 지식 베이스로 활용하였으며, RAG 기반 컨텍스트로 생성된 전문 용어 번역 피드백을 사용함으로써 RAG를 사용하지 않은 초벌 번역에 비해 전문 용어 번역 정확도가 유의미하게 향상되는 것을 확인하였다. 한국어 저자원 도메인 중 하나인 체스 도메인을 대상으로 실험한 결과, 제안된 시스템은 GPT-5 모델 기준 전문 용어 번역 정확도 85.2%를 달성하였으며 이는 상용 번역기인 Google Translate(78.1%), DeepL(49.2%), Papago(35.5%)보다 우수한 성능을 보였다. 이는 RAG와 다중 에이전트 기반의 번역 시스템이 한국어 저자원 도메인 번역에서 효과적일 수 있다는 가능성을 제시하였다.
more초록(요약문)
In specialized domain translation, the accurate translation of domain-specific terminology significantly affects overall translation quality. However, traditional machine translation models and monolithic systems based on a single LLM struggle to achieve high performance on specialized terminology translation in low-resource domains due to insufficient pre-trained knowledge when parallel corpora are limited. This issue is especially severe in the Korean low-resource domain, where the lack of parallel corpora makes additional model training and evaluation difficult. To address this problem, this study designed a multi-agent translation system for English-to-Korean translation. It consists of draft translation, domain terminology extraction, feedback generation, and revised translation. A synthetic parallel corpus was generated by back-translation of Korean monolingual data and used as a RAG knowledge base. By using terminology translation feedback generated from RAG retrieved context, terminology translation accuracy was improved significantly compared to the draft translation without RAG. Experiments conducted on the chess domain, one of the Korean low-resource domains, showed that the proposed system achieved a terminology translation accuracy of 85.2% with the GPT-5 model, outperforming commercial translation systems including Google Translate(78.1%), DeepL(49.2%), and Papago(35.5%). These results suggest that RAG and a multi-agent system can be effective for Korean low-resource domain translation.
more목차
제 1 장 서론 1
제 1 절 연구 배경 1
제 2 절 연구 목적 2
제 3 절 논문 구성 4
제 2 장 이론적 배경 5
제 1 절 기계 번역 5
제 2 절 RAG 7
제 3 절 다중 에이전트 시스템 10
제 3 장 연구 방법 12
제 1 절 데이터 구성 및 전처리 12
제 2 절 RAG 지식 베이스 구성 15
제 3 절 에이전트 설계 17
제 4 절 시스템 구현 21
제 5 절 성능 평가 방식 22
제 6 절 평가 데이터셋 구성 23
제 4 장 연구 결과 25
제 1 절 전체 성능 평가 25
제 2 절 세부 성능 분석 30
제 5 장 결론 39
참고 문헌 42

