검색 상세

이미지 생성과 문맥 기반 질의응답을 위한 이중 도메인 적응 전략

Dual-Domain Adaptation Strategies for Image Generation and Contextual Question Answering

초록(요약문)

This paper conducts a dual study aimed at enhancing the domain adaptability of general-purpose pretrained models. In the first study, we constructed a data augmentation pipeline based on Stable Diffusion that automatically generates large-scale image–instruction pairs using a small set of seed fashion data. Utilizing the data produced by this pipeline, we fine-tuned a general-purpose pretrained model to develop FIGMA (Fashion Image Generation Model with Augmented data). The pipeline adopts the Img2Img approach for image augmentation and applies CLIP- and LLM-based structuring for text augmentation, thereby securing high-quality, fashion attribute–focused data. Through LoRA-based fine-tuning, a fashion domain–specialized text-to-image generation model was successfully established. The second study introduces WQPQA (Weighted Question Probability Question Answering) to improve domain adaptation in question–answering systems by probabilistically leveraging question-type information. For the contextual data in the target domain, various types of questions are generated using an LLM. To capture the multi-semantic nature of each question type, the method derives a TREC-based probabilistic distribution of question types through an MLP. A BERT-based QA model is trained and domain adapted to the target domain via soft alignment–based self-supervised learning. Both studies present efficient adaptation strategies for transforming general-purpose models into domain-specialized ones, providing common insights into data efficiency and uncertainty handling.

more

초록(요약문)

본 논문은 범용 사전학습 모델의 도메인 적응력을 향상시키기 위한 이중 연구를 수 행하였다. 첫 번째 연구에서는 Stable Diffusion을 기반으로, 소량의 시드 패션 데이터를 활용 해 대규모 이미지-명령어 쌍을 자동 생성하는 데이터 증강 파이프라인을 구축했다. 파이프라인으로 생성된 데이터를 활용해서 범용 모델을 미세조정하여 FIGMA(Fashion Image Generation Model with Augmented data)모델을 구축했다. 이미지 증강에는 Img2Img 파이프라인 방식을, 텍스트 증강에는 CLIP 및 LLM 기반 구조화를 적용하여 패션 속성 중심의 고품질 데이터를 확보하였으며, LoRA 기반 미 세조정을 통해 패션 도메인 특화 텍스트-이미지 생성 모델을 구축하였다. 두 번째 연구에서는 질의응답 시스템의 도메인 적응을 위해, 질문 유형 정보를 확률적으로 활용하는 WQPQA(Weighted Question Probability Question Answering)방 법을 제안하였다. 타겟 도메인 데이터의 문맥에 대해 다양한 유형의 질문들을 LLM 기반으로 생성한다. 데이터의 각 질문 유형의 다중 의미성을 반영하기 위해 TREC 기 반 질문 유형별 확률 분포를 MLP로 도출한다. BERT 기반 QA 모델을 학습한 후, 소프트 정렬 기반의 자기 지도 학습으로 구성된 타겟 도메인 적응을 수행하였다. 두 연구 모두 범용 모델을 도메인 특화 모델로 변환하기 위한 효율적 적응 전략을 제시하였으며, 데이터 효율성과 불확실성 처리 측면에서 공통된 시사점을 제공한다.

more

목차

제 1 장 서론 1
1.1 연구 요약 1
1.2 연구 별 초록 2
제 2 장 자동화 증강 파이프라인을 통한 이미지 생성 모델의 패션 도메인 적응 4
2.1 서론 4
2.2 관련 연구 6
2.2.1 텍스트-이미지 생성 모델 6
2.2.2 생성 모델을 위한 데이터 증강 6
2.2.3 비전-언어 모델에서의 지시문 기반 미세조정 7
2.2.4 패션 도메인에서의 인공지능 8
2.3 방법론 9
2.3.1 이미지-지시문 데이터 구조 정의 10
2.3.2 이미지 증강10
2.3.3 지시문 텍스트 증강 11
2.3.4 텍스트-이미지 모델을 위한 지시문 미세조정 13
2.4 실험13
2.4.1 데이터 13
2.4.2 평가 지표 14
2.4.3 인간 평가 14
2.4.4 실험 환경 16
2.5 실험 결과 16
2.5.1 데이터 증강 규모별 모델 성능 16
2.5.2 증강 데이터 품질 17
2.5.3 지시문 및 이미지 일치 성능 17
2.5.4 Ablation Study18
2.6 결론19
2.6.1 한계점 19
2.6.2 향후 개선 방향20
2.6.3 결론 20
제 3 장 확률적 질문 유형 기반 QA 모델의 도메인 적응 21
3.1 서론21
3.2 관련 연구 23
3.2.1 질의응답을 위한 도메인 적응 23
3.2.2 질문 생성을 위한 대규모 언어 모델 24
3.2.3 질문 유형 분류25
3.2.4 자기 지도 학습과 의사 라벨링 26
3.3 방법론 27
3.3.1 LLM 지시문 미세조정 기반 질문 생성 28
3.3.2 질문 유형별 확률 분포 도출29
3.3.3 WQPQA 기반 도메인 적응 학습 31
3.4 실험36
3.4.1 데이터 36
3.4.2 베이스라인 38
3.4.3 평가 지표 및 실험 환경 38
3.5 실험 결과 39
3.5.1 도메인 적응 성능 39
3.5.2 QA 모델 학습 결과 40
3.5.3 Ablation Study41
3.6 결론41
제 4 장 결론43
4.1 연구 요약 43
4.2 향후 연구 방향 44
참 고 문 헌 45

more