Generalizing Large-Scale Pretrained Models for Zero/Few-shot Anomaly Detection
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076691
- UCI I804:11029-000000076691
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
이 논문은 비전 검사를 자동화하는데 필요한 이상 탐지 문제를 다룬다. 이상 탐지에 대한 일반적인 접근방식은 이상을 식별하기 위한 기준으로 사용하기 위해 정상 샘플의 분포를 학습하는 것이다. Zero-shot 및 few-shot 이상 탐지는 제한된 수의 정상 이미지 없이 또는 제한된 수의 정상 이미지만으로 모델이 각 범주에 빠르게 적응하는보다 실용적인 환경을 고려한다.이 논문에서는 prompt template의 지침을 통해 정상 샘플을 생성하는 확산 모델을 활용하여 zero/few-shot 환경에 대한 참조로 추가 정상 이미지 세트를 제공하는 방법을 제안한다. 또한 사전에 훈련된 여러 CLIP 모델의 다양한 임베딩을 활용하기 위해 CLIP 인코더 앙상블을 활용한다.논문은 실험을 통해서 다른 임베딩으로 인해 다른 이상 맵 형성이 발생하고 인코더 앙상블을 사용할 때 최상의 성능을 발휘한다는 것을 보여준다. 마지막으로, CLIP 이미지 임베딩을 CLIP 텍스트 임베딩 차원으로 매핑하는데 사용되는 fully connected layer의 학습을 지원하기 위해 합성 비정상 샘플을 시뮬레이션하는 방법을 소개한다. 실험 결과에 따르면 제안된 방법은 MVTec-AD 및 VisA 벤치마크에서 zero-shot 이상 탐지 및 로컬화를 위한 기존 최첨단 방법을 1.5%/8.1%(11.7%/2.7%) 및 1-shot 0.3%/1.3%(2.7%/0.9%) 능가하는 우수한 결과를 얻었다.
more초록
Anomaly detection is the task of identifying product defects in industrial manufacturing crucial for automating vision inspection. The common approach to anomaly detection has been on learning the distribution of normal samples to use it as a criterion for identifying anomalies. The zero/few-shot anomaly detection consider a more practical setting where a model adapts to each category without or with a limited number of normal images. This paper proposes a novel method for providing an additional set of normal images as a reference for the zero/few-shot settings by utilizing a diffusion model which generates normal samples through the guidance of text prompts. In addition, to exploit a variety of embeddings from multiple Contrastive Language–Image Pretraining(CLIP) models, we leverage an ensemble of CLIP encoders. We also show that different embeddings lead to different anomaly map formations and the best performance is achieved when using an ensemble of encoders. Lastly, we introduce a methodology for simulating artificial abnormal sam- ples to assist the learning of linear layers used to align the embedding space of the CLIP image embeddings to the CLIP text embeddings. Experimental results have shown that the proposed method outperforms the state-of-the-art methods for zero- shot anomaly detection and localization by 1.5%/8.1% (11.7%/2.7%), and 1-shot 0.3%/1.3% (2.7%/0.9%) AUROC in the MVTec-AD and VisA benchmarks.
more목차
I . Introduction 1
II . Related work 5
2.1 Anomaly detection and localization 5
2.2 CLIP Model 6
2.3 Zero-shot image classification with CLIP 6
2.4 Text-to-image diffusion models 7
III . Methodology 9
3.1 Zero-shot Anomaly detection and localization 9
3.2 Few-shot Anomaly detection and localization 11
3.3 Artificial anomaly simulation 12
3.4 Normal feature generation with Diffusion models 16
3.5 Ensemble of encoders 18
IV . Experimental Results 20
4.1 Experimental Settings 20
4.2 Qualitative Results 23
4.3 Ablation Analysis 30
V . Conclusion and Future Work 37
Bibliography 39