한국어 기반 편집 텍스트 및 이미지 질의를 활용한 멀티모달 유사 이미지 검색 시스템 설계 및 구현
Design and Implementation of a Multimodal Similar Image Retrieval System Using Korean Edited Text Queries and Image
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000082123
- UCI I804:11029-000000082123
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Current image retrieval methods have evolved from unimodal approaches to multimodal retrieval systems that leverage both text and image data. While research on multimodal retrieval has progressed significantly, most prior studies have focused on English and Chinese text queries, and systems supporting Korean queries remain limited. To address this gap, this paper proposes a multimodal image retrieval system that supports Korean text queries and presents a query methodology suited for this setting. The proposed system is based on the VISTA framework and utilizes the Vis-BGE-base model for image retrieval. Korean queries are translated into English using the NLLB-200-distilled-600M model to align with the English-trained embedding space. During the offline phase, image embeddings are precomputed and stored in HDF5 format, and a FAISS- GPU-based index is built to enable efficient similarity search at runtime. The proposed system demonstrates superior retrieval performance compared to existing multilingual models, validating its effectiveness and scalability for Korea NLLB-language multimodal search. Additionally, the paper explores how the length of text queries and the weighting between input modalities affect retrieval performance. Experiments involving a simple Late Fusion method combining text and image embeddings after independent encoding were conducted to investigate various query composition strategies. Results show that the Early FusioNLLB-based architecture yields better performance by capturing cross-modal interactions more effectively, emphasizing the importance of modality- aware design and user intent aware query structuring in multimodal search systems. Topics : multimodal image retrieval, image retrieval system
more초록 (요약문)
현재의 이미지 검색 방법은 단일 모달을 이용한 검색에서 멀티 모달을 활용한 이미지 검색으로 발전 중이다. 이에 따라 멀티모달 정보 기반의 이미지 검색 방법이 활발히 연구되고 있으나, 기존의 연구들은 대부분 영어와 중국어 기반의 텍스트 질의를 중심으로 진행이 되어 왔으며, 한국어 질의에 대한 연구와 검색 시스템은 상대적으로 부족한 실정이다. 이에 본 논문에서는 한국어 텍스트 질의를 활용한 멀티모달 이미지 검색 시스템 구축과 질의 방법론은 제안한다.본 시스템은 VISTA 기반 Vis-BGE-base 모델을 활용한 이미지 검색 시스템이며, NLLB-200-distilled-600M 을 통해 한국어 질의를 영어로 번역하여 이미지 검색을 진행한다. 오프라인 단계에서는 이미지 데이터셋의 임베딩 정보를 미리 HDF5 포맷으로 저장하고, FAISS-GPU 기반 인덱스를 구축하여 빠른 유사도 검색이 가능하도록 설계하였다. 위 시스템은 다국어 질의 처리가 가능한 기존 멀티모달 검색 모델보다 우수한 검색 성능을 보였으며, 한국어 기반 멀티모달 검색 시스템의 구현 가능성과 확장성을 실험적으로 검증하였다. 또한, 본 논문에서는 질의 문장의 길이와 입력 modality 간 비중에 따른 검색 성능 차이를 분석하고, Late Fusion 기법을 활용한 질의 방식 실험을 통해 다양한 검색 조건에 대한 가능성을 탐색하였다. 실험 결과, Early Fusion 기반 구조가 modality 간의 상호작용 측면에서 더 우수한 성능을 보였으며, 사용자 질의 형태에 따른 검색 성능 최적화의 필요성이 확인되었고, 이를 반영한 향후 연구의 방향성을 제시한다. 주제어: 멀티모달 이미지 검색, 이미지 검색 시스템
more목차
1. 서론 1
2. 관련 연구 및 문제점 분석 3
2.1 멀티모달 이미지 검색 모델 3
2.1.1 EVA-CLIP 3
2.1.2 VISTA 6
2.2 한국어 질의 번역 모델 11
2.3 기존 연구 적용 시의 문제점 분석 11
3. Image 와 한국어 편집 정보를 활용한 멀티모달 유사 이미지 검색 시스템 .. 14
3.1 전체 시스템 구조 설계 14
3.2 Image 와 편집 텍스트 처리 방법 17
3.2.1 기존 모델의 이미지 검색 방법 17
3.2.2 Rank-based Late fusion 을 활용한 이미지 검색 방법 19
3.2.3 Cosine Similarity-based Late Fusion 을 활용한 이미지 검색 방법 21
3.3 한국어 편집 텍스트 처리 방법 22
3.4 Web 기반 검색 시스템 구현 25
4. 실험 및 분석. 29
4.1 실험 환경 및 데이터셋 29
4.2 실험 및 성능 분석 31
4.2.1 영어 질의에 따른 성능 분석 31
4.2.2 한국어 질의에 따른 성능 분석 35
4.2.3 Text 길이에 따른 성능 분석 39
4.2.4 Ranked-based Late fusion 방식 평가 42
4.2.5 Cosine Similarity-based Late fusion 방식 평가 44
4.3 기존의 모델과 비교 분석 및 검색 방법 분석 47
5. 결론 및 향후 과제 48
6. 참고 문헌 49
A. 부록 52
A.1 영어 질의에 따른 검색 이미지 결과 52
A.2 한국어 질의에 따른 검색 이미지 결과 54
A.3 FashionIQ 이미지 질의에 대한 이미지 검색 결과 56

