도메인 독립적 이미지 검색을 위한 의미 일관적 다중 도메인 정렬 기반 멀티모달 LLM Fine-Tuning
A Semantic-Consistent Multi-Domain Alignment for Domain-Invariant Image Retrieval via Multimodal LLM Fine-Tuning
- 주제(키워드) 교차 도메인 이미지 검색 , 도메인 일반화 , 멀티모달 LLM , LLM , 파라미터 효율적 파인튜닝 , 대조 학습 , Cross-Domain Image Retrieval , Domain Generalization , Multimodal LLM , LLM , PEFT , Contrastive Learning
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제URI http://www.dcollection.net/handler/sogang/000000082759
- UCI I804:11029-000000082759
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
동일한 의미론적 개념의 이미지라도 서로 다른 시각적 도메인에서 비롯되면 공통 임베딩 공간에서 멀리 떨어진 클러스터를 형성한다. 이러한 도메인 격차는 교차 도메인 이미지 검색(Cross-Domain Image Retrieval)과 도메인 일반화(Domain Generalization)에서 같은 객체가 도메인에 따라 다른 클래스로 취급되는 문제를 야기한다. 기존 방법들은 시각 인코더 특징 위에서 분포 정렬, GAN·도메인 적대 학습·의사 레이블링, CLIP 기반 프롬프트 튜닝 등에 의존하지만, 도메인 차이가 큰 경우에는 스타일·의미 성분의 얽힘과 단일 앵커 정렬 구조 때문에 성능 저하와 학습 불안정 문제를 겪는다. 본 논문에서는 멀티모달 LLM의 의미론적 표현을 기반으로, 동일한 개념의 서로 다른 시각적 도메인의 이미지 임베딩을 가깝게 정렬하는 새로운 프레임워크를 제안한다. 제안하는 프레임워크는 멀티모달 LLM의 마지막 토큰 임베딩을 활용하여 도메인 특화 스타일을 억제하고 의미 중심의 초기 임베딩을 추출한다. 이후 출력 임베딩 위에 경량 정렬 모듈을 부착하여 학습하는 파라미터 효율적 파인튜닝(PEFT) 방식을 사용한다. 정량·정성적 실험을 통해 제안 방법이 기존 방법들을 상회하는 성능을 보이며, 도메인 일반화 분류 실험에서도 강인한 성능을 달성함을 확인하였다.
more초록(요약문)
Even when images share the same semantic concept, those from different visual domains often lie far apart in the embedding space, which makes Cross-Domain Image Retrieval and Domain Generalization treat the same object as different classes across domains. Existing methods mainly rely on distribution alignment in visual feature space, GAN-based domain-adversarial training, pseudo-labeling, or CLIP-style prompt tuning, but under large domain gaps they still suffer from entangled style–semantic factors, anchor-biased alignment, and unstable training. In this paper, we propose a framework that leverages the semantic representations of MLLM to align images from different visual domains that share the same concept into nearby regions in the embedding space. Our framework uses an last-token embedding of MLLM to suppress domain-specific style and obtain a meaning-centric initial representation. We attach a lightweight alignment module on top of this embedding and train it in a PEFT manner. Extensive quantitative and qualitative experiments show that the proposed method outperforms existing approaches and achieves robust performance on domain generalization classification tasks.
more목차
1 서론 1
2 관련 연구 6
2.1 도메인 일반화(Domain Generalization) 6
2.2 교차 도메인 이미지 검색(Cross-Domain Image Retrieval) 7
2.3 멀티모달 LLM 9
2.4 기존 연구의 문제점 분석 10
3 도메인 독립적인 이미지 임베딩 벡터 생성 방법 설계 13
3.1 전체 시스템 설계 13
3.2 정렬 모듈(Alignment Module) 상세 설계 15
3.3 손실 함수 상세 설계 20
3.4 학습 및 추론 방식 25
3.4.1 학습 방식 25
3.4.2 추론 방식 26
4 실험 및 분석 30
4.1 실험 환경 및 데이터셋 30
4.1.1 구현 및 하드웨어 환경 30
4.1.2 데이터셋 30
4.1.3 실험 1: 교차 도메인 이미지 검색 설정 31
4.1.4 실험 2: 도메인 일반화 설정 33
4.2 교차 도메인 이미지 검색 실험 결과 35
4.2.1 정렬 모듈 구조별 UdCDR 성능 비교 35
4.2.2 프롬프트 및 모듈 유무 Ablation 37
4.2.3 손실 함수 Ablation 39
4.3 정성적 분석 41
4.3.1 정렬 모듈 구조 및 유뮤에 따른 검색 결과의 정성 비교 41
4.3.2 도메인별 검색 결과의 정성 비교 43
4.3.3 임베딩 분포의 정성 비교 45
4.3.4 실패 사례 분석 47
4.4 도메인 일반화 실험 결과 49
4.4.1 정렬 모듈 구조별 도메인 일반화 성능 비교 51
4.5 관련 연구와의 비교 52
4.5.1 교차 도메인 이미지 검색 실험 결과 비교 52
4.5.2 도메인 일반화 실험 결과 비교 55
5 결론 57
6 참고문헌 59

