BLIP-2를 활용한 유실물 어노테이션 증강 방법
An Augmentation Method for Lost Item Annotation Using BLIP-2
- 주제어 (키워드) 멀티모달 , BLIP-2 , 이미지 캡셔닝 , Zero-shot , Few-shot , G-eval
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 구명완
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000079512
- UCI I804:11029-000000079512
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
공공 유실물 종합관리 시스템에서 제공하는 유실물 데이터는 이미지와 이에 대응하는 텍스트 설명으로 구성되지만, 기존 설명은 종종 부정확하거나 불완전하여 유실물 식별과 처리 과정에서 비효율을 초래한다. 본 연구는 BLIP- 2 모델을 활용하여 유실물 이미지의 캡션 품질을 개선하고, G-eval 평가 기법을 통해 생성된 캡션의 정확성, 명확성, 포괄성, 적합성을 정량적으로 평가하는 방법론을 제안하였다. BLIP-2 모델은 Zero-shot 및 Few-shot 학습 설정에서 높은 성능을 보였으며, 특히 Few-shot(5-shot) 설정에서 BLEU, CIDEr, G-eval 점수에서 최고 성과를 기록하였다. G-eval 기법은 기존의 BLEU, CIDEr, SPICE 등 텍스트 평가 지표의 한계를 보완하여 문맥적 유창성과 언어 품질을 평가하는 데 유용함을 입증하였다. 본 연구는 BLIP-2 생성 캡션과 GPT-4o 제안 캡션을 혼합하여 학습 데이터의 품질을 향상시키고, 데이터의 효율성을 극대화함으로써 최적의 성능을 달성하였다. 또한, 제한된 데이터 환경에서도 데이터 품질 관리가 모델 성능에 미치는 중요한 영향을 확인하였다. 이 연구는 유실물 종합관리 시스템의 데이터 품질 개선 뿐만 아니라, 멀티모달 AI 모델의 효과적 학습 및 평가를 위한 새로운 접근법을 제시하였다. 제안된 방법론은 공공 유실물 관리 뿐만 아니라 다양한 도메인에서 활용 가능성을 지니며, 제한된 데이터 환경에서도 높은 학습 성능과 일반화 능력을 보일 수 있음을 보여준다.
more초록 (요약문)
The public lost-and-found integrated management system provides lost item data consisting of images and their corresponding textual descriptions. However, the existing descriptions are often inaccurate or incomplete, leading to inefficiencies in the identification and processing of lost items. This paper proposes a methodology to enhance the quality of lost item image captions using the BLIP-2 model and introduces the G- eval evaluation framework to quantitatively assess the generated captions in terms of accuracy, clarity, comprehensiveness, and relevance. The BLIP-2 model demonstrated significant performance in both Zero- shot and Few-shot learning configurations, with the Few-shot (5-shot) setup achieving the best results in BLEU, CIDEr, and G-eval scores. The G-eval framework effectively addresses the limitations of traditional text evaluation metrics such as BLEU, CIDEr, and SPICE by assessing the contextual fluency and linguistic quality of generated captions. This paper utilized a hybrid dataset combining BLIP-2-generated captions and GPT-4o-proposed captions to improve the quality of training data, thereby maximizing the model’s performance. Furthermore, the paper confirmed the critical impact of data quality management on model performance, even in constrained data environments. This paper presents a novel approach to improving the data quality of lost-and-found management systems while offering a new perspective on the effective training and evaluation of multimodal AI models. The proposed methodology demonstrates applicability not only to public lost-and-found management but also to various domains, showcasing robust learning performance and generalization capabilities even in data-constrained environments.
more목차
1. 서론 1
2. 관련 연구 3
2.1 멀티모달과 비전-언어 모델 3
2.2 BLIP-2 모델의 구조 및 기술 5
2.3 학습 최적화 기법 7
2.4 Zero-shot 및 Few-shot 학습 12
2.5 G-eval 프레임워크 14
3. 유실물 어노테이션 증강 방법 18
3.1 Baseline 18
3.2 BLIP-2 프롬프트 최적화 21
3.3 Fine-tuning 모델 구성 23
3.4 Zero-shot 및 Few-shot 학습 진행 방법 26
3.5 GPT-4o 와 G-eval 연계 28
4. 실험 및 결과 33
4.1 실험 환경 33
4.2 데이터셋 34
4.3 Pre-trained 기반 모델 실험 결과 36
4.4 원본 데이터 기반 모델 실험 결과 38
4.5 BLIP-2 생성 캡션 기반 모델 실험 결과 41
4.6 GPT-4o 제안 캡션 기반 모델 실험 결과 44
4.7 혼합 데이터 기반 모델 실험 결과 47
4.8 모델별 실험 결과 비교 50
4.9 최종 분석 및 고찰 53
5. 결론 55
참고 문헌 57