도메인 유사도를 고려한 도메인 적응 이미지 분류의 최적 데이터셋 구성 방안 연구
Optimal Dataset Composition Strategy for Domain Adaptation in Image Classification Considering Domain Similarity
- 주제어 (키워드) 데이터 부족 , 도메인 적응 , 이미지 분류 , 일반화 , 데이터 구성 방안 , Domain Adaptation , Data Scarcity , Image Classification , MobileNet , DANN , FID , Wasserstein Distance , Generalization , Data Composition Strategy
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 강석주
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000081675
- UCI I804:11029-000000081675
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 데이터 부족 환경에서 도메인 적응 기법을 활용할 때, 도메인 간 차이를 고려하여 최소한의 학습 데이터만으로도 효율적인 이미지 분류 성능을 확보할 수 있는 최적의 데이터 구성 방안을 제안하는 것을 목표로 한다. 이를 위해 경량 CNN 모델(MobileNet, EfficientNet, GhostNet)와 도메인 적응 기법(MMD, DANN, CDAN)을 조합하여 다양한 도메인 조합에서의 분류 성능을 비교·분석하였다. 특히 MobileNet V1과 DANN 구조가 데이터 효율성과 성능면 에서 가장 우수함을 확인하였고, 이를 기반으로 세 가지 주요 실험을 설계하였다. 첫째, 타깃 도메인 샘플 수 증가에 따른 성능 변화를 분석하여 데이터양과 정확도의 관계를 규명하였다. 둘째, FID(Frechet Inception Distance)와 Wasserstein Distance를 사용해 도메인 간 유사도를 정량적으로 평가하고, 이를 기반으로 도메인 유형을 분류하는 체계를 구축하였다. 도메인 유형을 도메인 간 차이에 따라 안정적 적응(FID<230), 점진적 적응(230≤FID<300), 동적 적응(FID≥300)의 세 가지로 분류하고, 각 유형에 맞는 최적 데이터양 구간을 제시하였다. 셋째, 객체 및 결함 데이터셋을 활용한 일반화 실험을 통해 제안된 전략의 범용성과 통계적 유의성을 ANOVA 및 회귀분석을 통해 입증하였다. 본 연구는 도메인 유사도를 기반으로 분류된 세 가지 적응 유형에 대한 현장 적용 방안을 제안하였다. 안정적 적응 유형은 적은 데이터로 빠른 프로토타입 구축이 가능하며, 점진적 적응 유형은 단계적으로 데이터를 확보하여 성능 향상을 점검하는 방식이 효과적임을 확인하였다. 동적 적응 유형에서는 초기부터 충분한 데이터를 확보하는 전략이 필요함을 제시하였다. 이를 통해 데이터 수집 비용과 학습 효율성을 동시에 고려한 실용적인 전략을 제공하며, 산업 현장의 실시간 결함 탐지 시스템 구축에 실질적으로 기여할 것으로 기대된다.
more초록 (요약문)
This study aims to propose an optimal data composition strategy that enables efficient image classification performance with minimal training data by considering domain discrepancy when applying Domain Adaptation in data-scarce environments. To overcome these challenges, lightweight Convolutional Neural Networks (CNNs), including MobileNet, EfficientNet, and GhostNet, are explored in combination with Domain Adaptation, such as Maximum Mean Discrepancy (MMD), Domain-Adversarial Neural Network (DANN), and Conditional Domain-Adversarial Network (CDAN). The analysis determined that the combination of MobileNet V1 and DANN exhibited the highest efficiency and performance. Based on this finding, the study designed three primary experiments: First, this study examines how the increase in the number of target domain samples influences model performance and identifies the relationship between data volume and classification accuracy. Second, Domain similarity was quantitatively assessed using FID(Frechet Inception Distance) and Wasserstein Distance, leading to a classification of domain types into three categories: Stable adaptation (FID < 230) Gradual adaptation (230 ≤ FID < 300) Dynamic adaptation (FID ≥ 300) For each category, the optimal range of target domain data was defined. Third, generalization experiments were conducted using object and defect datasets to verify the applicability of the proposed strategy across domains. The generalizability and statistical validity of the findings were further demonstrated through ANOVA and regression analysis. This study proposes practical field application strategies based on three adaptation types classified according to domain similarity. For the stable adaptation type, rapid prototyping is achievable with minimal data. In the gradual adaptation type, it was effective to incrementally acquire data while monitoring performance improvements. For the dynamic adaptation type, a strategy of securing sufficient data from the early stage is necessary. This approach provides a practical strategy that simultaneously considers data acquisition costs and learning efficiency, significantly contributing to the development of real-time defect detection systems in industrial fields.
more목차
제 1 장 서론 1
제 1절 연구 배경 및 필요성 1
제 2절 연구 목적 3
제 2 장 이론적 배경 및 관련 연구 5
제 1절 CNN 기반 이미지 분류 모델 5
제 2절 도메인 적응(DOMAIN ADAPTATION) 기법 8
제 3절 평가 지표 10
제 4절 선행 연구 분석 14
제 3 장 실험 설계 17
제 1절 실험 환경 17
제 2절 실험 데이터셋 구성 18
제 3절 실험 설계 22
제 4절 평가 방법 29
제 5절 제안 방법론 31
제 4 장 실험 결과 및 분석 33
제 1절 타깃 도메인 표본 수에 따른 성능 변화 33
제 2절 도메인 유사도에 따른 유형 분류 및 최적 데이터양 제안 37
제 3절 분류 일반화 검증 실험 결과 41
제 4절 제안 방법론 및 현장 적용 방안 46
제 5 장 결론 및 한계 49
참고문헌 53

