검색증강 기반 하이브리드 임베딩 모델을 활용한 고객문의 자동응답 시스템 구축
Building an Automated Customer Inquiry Response System Using a Retrieval-Augmented Hybrid Embedding Model
- 주제어 (키워드) RAG , 검색증강 , LLM , 하이브리드 임베딩 , BERT , INSTRUCTOR , VOC , Sentence Embedding , LangChain , Prompt Engineering , Fine-tuning , GPT , Instruction-aware Prompting , Hallucination , ROUGE-L , Reference-Free , FAISS
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 구명완
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000081694
- UCI I804:11029-000000081694
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 대규모 언어 모델(LLM)의 상용화로, 별도의 추가 학습 없이 다양한 질의에 대응할 수 있는 프롬프트 기반 응답 생성 방식이 고객문의 자동응답 시스템에서 주목받고 있다. 그러나 기존 시스템은 문장 임베딩 기반의 유사 문서 검색에 의존하여 반복적인 질의에는 효과적이나, 비정형 질문에는 의미 정합성이 떨어지는 한계를 가진다. 이에 본 연구는 검색 기반 의미 정렬과 생성형 언어 모델을 결합한 검색증강생성(RAG) 구조를 도입하고, 고객문의 자동응답 시스템을 고도화하였다. 이에 본 연구는 검색 기반 의미 정렬과 생성형 언어 모델을 결합한 검색증강생성(RAG) 구조를 기반으로, 문의유형별로 성능이 우수한 임베딩 모델을 선택적으로 적용하는 하이브리드 기법을 도입하였다. 제안된 시스템은 임베딩 기반 검색, GPT-4o 기반 요약 및 재생성, 다각적 평가로 구성된다. 검색 단계에서는 누적 학습된 BERT와 INSTRUCTOR 모델을 활용해 FAISS 인덱스를 구축하고, 질의에 적합한 문서를 검색한다. INSTRUCTOR는 문의유형 정보를 포함한 프롬프트를 활용해 문맥 이해도를 높였으며, 유형 예측을 위한 TF-IDF 및 로지스틱 회귀 기반의 분류 사전실험도 수행하였다. 생성 단계에서는 요약 응답 후 최종 재구성을 통해 응답 품질을 개선하였고, 평가는 ROUGE-L 기반 정량 분석과 GPT-4o를 활용한 명확성, 유용성, 어조 중심의 정성 평가로 구성되었다. 실험 결과, 간결한 질의에는 BERT가, 복잡한 문맥에는 INSTRUCTOR가 효과적인 응답을 생성하였으며, 질의 유형에 따라 모델을 선택적으로 적용하거나 통합하는 전략이 응답 품질 최적화에 유리함을 확인하였다. 본 연구는 검색과 생성을 연계한 하이브리드 구조의 가능성을 실증하였으며, 향후 실시간 피드백과 도메인별 프롬프트 정교화를 통해 고객문의 응답 자동화 기술의 실효성을 높일 수 있음을 제안한다.
more초록 (요약문)
With the recent commercialization of large language models (LLMs), prompt-based response generation—capable of handling various queries without additional fine-tuning—has drawn attention in customer inquiry automation systems. However, conventional systems relying solely on sentence embedding-based document retrieval perform well for repetitive queries but struggle to maintain semantic coherence for unstructured or complex questions. To address this limitation, this study proposes an advanced customer inquiry response system by introducing a Retrieval-Augmented Generation (RAG) architecture that combines semantic retrieval with generative language models. A key feature of the proposed system is a hybrid embedding strategy, where the system selectively applies the most effective embedding model—BERT or INSTRUCTOR—based on the type of customer inquiry. The system comprises three main components: embedding-based retrieval, GPT-4o-based summarization and regeneration, and multi-faceted evaluation. In the retrieval phase, a FAISS index is constructed using cumulatively fine-tuned BERT and INSTRUCTOR models. The INSTRUCTOR model is enhanced with prompt structures that incorporate inquiry type metadata to improve contextual understanding. In addition, preliminary classification experiments using TF-IDF features and logistic regression were conducted to predict inquiry types from response texts. In the generation phase, retrieved documents are used to produce a summary response, followed by final response reconstruction. Evaluation consists of quantitative analysis using ROUGE-L and qualitative scoring by GPT-4o, assessing clarity, helpfulness, and tone. Experimental results demonstrate that BERT performs well for concise queries, while INSTRUCTOR is more effective for context-heavy inquiries. The selective or integrated use of models based on query type was found to be advantageous for optimizing response quality. This study validates the effectiveness of a hybrid architecture combining retrieval and generation and suggests that incorporating real-time feedback loops and domain-specific prompt engineering can further enhance the practicality of automated customer inquiry systems.
more목차
제 1 장 서론
제 1 절 연구 배경 및 목적 1
제 2 절 연구 내용 4
제 3 절 논문 구성 7
제 2 장 관련 연구
제 1 절 검색증강 기반 검색 기술 8
제 2 절 모델 최적화 기법 15
제 3 절 응답 품질 및 분류 성능 평가 21
제 3 장 검색증강 기반 하이브리드 임베딩 모델을 활용한 고객문의 자동응답 시스템 구축
제 1 절 데이터 구성 및 분류 26
제 2 절 임베딩 및 생성 모델 구성 29
제 3 절 성능 평가 방식 31
제 4 장 실험 및 분석
제 1 절 실험 환경 34
제 2 절 문장 임베딩 기반 검색 성능 비교 36
제 3 절 LLM 응답 품질 평가 42
제 4 절 실험 결과 53
제 5 장 결론 55
제 6 장 참고문헌 57

