LLM 기반 질의 확장 검색의 품질 향상을 위한 지식 충분도 기반 동적 검색 프레임워크: Dynamic-HyDE
Dynamic-HyDE: A Knowledge-Sufficiency– Driven Framework for Dynamic Retrieval in LLM- based Query Expansion
- 주제(키워드) 대형언어모델 , 질의 확장 , 가상 문서 임베딩 , 지식 충분도 , 동적 검색 프레임워크 , 하이브리드 검색 , Large Language Model , Query Expansion , HyDE , Knowledge Sufficiency , Dynamic Retrieval Framework , Hybrid Retrieval
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 정성원
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082265
- UCI I804:11029-000000082265
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
최근 대형언어모델(Large Language Model, LLM)의 발전으로 LLM기반으로 한 질의 확장(query expansion)연구가 활발히 진행되고 있다. 대표적으로 HyDE(Hypothetical document embeddings) 방식은 라벨 데이터 없이도 질의 의미 공간을 확장하여 zero-shot 환경에서 우수한 성능을 보여준다. 그러나 HyDE는 LLM이 보유한 파라미터화된 내재 지식(parameterized prior knowledge)에 전적으로 의존하므로, 특정 도메인에서의 지식 결핍이나 환각(hallucination)이 그대로 검색 단계로 전파되어 검색 품질의 불안정성을 초래한다는 한계를 지닌다. 본 연구는 이러한 문제를 해결하기 위해, LLM의 자기 평가(self-assessment) 능력을 활용하여 질의에 대한 지식 충분도(knowledge sufficiency)를 정량화하고, 그 결과에 따라 검색 경로를 동적으로 전환하는 지식 인식형 동적 검색 프레임워크(knowledge-aware dynamic retrieval framework) 인 Dynamic- HyDE를 제안한다. Dynamic-HyDE는 LLM이 산출한 지식 충분도 점수가 높을 경우에는 HyDE 경로(가상 답변 문서 기반 Dense retrieval)를, 낮을 경우에는 Hybrid retrieval 경로(BM25 + Dense retrieval, RRF 결합)를 선택하도록 설계되어, LLM의 지식 불확실성(knowledge uncertainty)을 실시간으로 제어한다. BEIR 다도메인 벤치마크(SciFact, ArguAna, FiQA, Scidocs, NFCorpus)에서 수행한 실험 결과, Dynamic-HyDE는 기존 HyDE 대비 평균 +1.9포인트(nDCG@10) 의 성능 향상을 달성하였으며, 도메인 다양성과 질의 난이도 변화에 따른 검색 안정성 또한 유의하게 개선되었다. 이는 LLM의 내재적 신호를 활용한 자기 평가 기반 지식 제어가 검색 품질 향상에 실질적으로 기여함을 입증한다. 본 연구는 LLM이 단순한 생성기(generative agent)를 넘어, 자신의 지식 상태를 인식하고 이에 따라 검색 전략을 조절할 수 있는 인지·조절형 생성(introspective and regulative generation) 패러다임으로 확장될 수 있음을 보여준다. 제안된 Dynamic-HyDE는 학습이 불필요한 plug-in 구조로, RAG 및 다양한 IR 시스템에 손쉽게 통합 가능하며, 향후 지식 인식형 LLM(knowledge- aware LLM) 연구의 실증적 기반을 제공한다. 키워드 : 대형언어모델, 질의 확장, 가상 문서 임베딩, 지식 충분도, 동적 검색 프레임워크, 하이브리드 검색
more초록(요약문)
Recent advances in large language models (LLMs) have spurred active research on LLM-based query expansion. In particular, the HyDE (Hypothetical document embeddings) approach expands the semantic space of a query without relevance labels and delivers strong zero-shot performance. However, because HyDE relies entirely on the LLM’s parameterized prior knowledge, domain-specific knowledge gaps and hallucinations can propagate directly into the retrieval stage, leading to instability in retrieval quality. To address this issue, we propose Dynamic-HyDE, a knowledge-aware dynamic retrieval framework that leverages an LLM’s self-assessment capability to quantify knowledge sufficiency for a given query and to adaptively switch the retrieval path based on that assessment. When the LLM outputs a high knowledge-sufficiency score, Dynamic-HyDE selects the HyDE path (hypothetical answer document–based Dense retrieval); when the score is low, it selects a hybrid retrieval path (BM25 + Dense retrieval with reciprocal rank fusion, RRF), thereby controlling knowledge uncertainty from the LLM in real time. Experiments on the BEIR multi-domain benchmark (SciFact, ArguAna, FiQA, Scidocs, NFCorpus) show that Dynamic-HyDE achieves an average improvement of +1.9 points in nDCG@10 over standard HyDE, with significantly enhanced robustness to domain diversity and query difficulty. These results demonstrate that self-assement–based knowledge control using the LLM’s intrinsic signals can materially improve retrieval quality. Beyond treating the LLM as a purely generative agent, this work suggests an introspective and regulative generation paradigm in which the model recognizes its own knowledge state and adjusts retrieval strategies accordingly. The proposed Dynamic-HyDE is a training-free, plug-in component that can be easily integrated into RAG pipelines and diverse IR systems, providing a practical foundation for future research on knowledge- aware LLMs. Keywords : Large Language Model, Query Expansion, HyDE, Knowledge Sufficiency, Dynamic Retrieval Framework, Hybrid Retrieval
more목차
제 1장 서론 1
제 1절 연구배경 1
제 2절 연구 필요성 4
제 3절 연구 목적 4
제 4절 연구 범위 및 기여 6
제 2장 이론적 배경 8
제 1절 관련 연구 8
제 2절 기존 연구의 한계 및 본 연구의 차별성 13
제 3장 제안 방법 15
제 1절 접근 방식 15
제 2절 제안 모델 16
제 4장 실험 25
제 1절 실험 설정 25
(1) 데이터셋 및 평가 지표 25
(2) 구현 27
(3) 비교 시스템 28
제 2절 실험 결과 30
제 5장 결론 38
제 1절 결과 해석 38
제 2절 이론적 및 실무적 함의 39
(1) 이론적 함의 39
(2) 실무적 함의 40
제 3절 연구의 한계 및 향후 연구 방향 41
(1) 연구의 한계 41
(2) 향후 연구 방향 42
제 4절 결론 43

