Hierarchical Group Merging for Zero- Shot Anomaly Detection
- 주제(키워드) Anomaly Detection , Vision-Language Model
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제URI http://www.dcollection.net/handler/sogang/000000082251
- UCI I804:11029-000000082251
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
Zero-shot anomaly detection (ZSAD)은 보지못한 도메인에서의 이상을탐지하 는 문제로 정의하며, 이는 도메인 시프트가 빈번한 산업 및 의료 응용 환경에서 특히중요한문제설정이다. 그러나 대부분의 CLIP기반 ZSAD방법은 의미정보 를 텍스트 모달리티에만 고정하기 때문에, 프롬프트 설계에 대한 성능 민감도가 매우 높고 시각적 그라운딩이 취약하다는 한계를 가진다. 이러한 한계를 완화하 기 위해, 우리는 상향식이 아닌 top-down 그룹화 메커니즘을 통해 계층적 이미지 앵커를 구성하고, 이를 기존의 텍스트앵커와 결합하는 Dual-Anchor framework 를 제안한다. 이 메커니즘은 로컬에서 글로벌로 이미지 특성을 점진적으로 집계하여 정상 및 비정상 그룹 토큰을 형성하며, 이 토큰들은 이미지앵커로 사용되는 동시에 Group-Gated Token Refiner 내에서 게이팅 신호로 작동하여 글로벌 표현 을 강화한다. 정제된 이미지 앵커는 이후 텍스트 프롬프트와 융합되어 Dynamic State Prompts를 구성한다. 제안하는프레임워크는 시각 및 텍스트의미를 공동으 로 강화함으로써 이미지–텍스트 정렬을 안정화하고, 프롬프트 의존성을 줄이며, 8개 산업 및 6개 의료 벤치마크 전반에서 강력한 일반화성능을 달성한다.
more초록(요약문)
Zero-shot anomaly detection (ZSAD) aims to identify anomalies in unseen domains, a setting that is particularly critical for industrial and medical applications where domain shifts are prevalent. However, most CLIP-based ZSAD methods an- chor semantics solely on the text modality, making performance highly sensitive to prompt design and leading to weak visual grounding. To mitigate these limitations, we propose a Dual-Anchor framework that complements conventional text anchors with hierarchical image anchors constructed via a top-down grouping mechanism. This mechanism progressively aggregates local-to-global image features to form normal and abnormal group tokens, which serve as image anchors and act as gating signals in a Group-Gated Token Refiner to enhance the global representation. The refined image anchors are then fused with text prompts to construct dynamic state prompts. By jointly reinforcing visual and textual semantics, our framework stabilizes image-text alignment, reduces prompt dependency, and achieves strong generalization across 8 industrial and 6 medical benchmarks.
more목차
I Introduction 1
II Related Works 4
2.1 Zero-Shot Anomaly Detection 4
2.2 Hierarchical Grouping 5
III Method 6
3.1 Problem Setting 6
3.2 Feature Extraction 6
3.3 Hierarchical Group Merging 7
3.3.1 Initialization 8
3.3.2 Assignment 9
3.3.3 Merging 10
3.3.4 Update 11
3.3.5 Image Anchor 11
3.4 Dual-Anchor Contrastive Learning 12
3.4.1 Group-Gated Token Refiner 12
3.4.2 Dynamic State Prompt 14
3.5 Optimization 14
3.5.1 Anomaly Map and Anomaly Score 14
3.5.2 Loss function 15
IV Experiments 17
4.1 Experimental Setup 17
4.1.1 Datasets 17
4.1.2 Evaluation Metrics 17
4.1.3 Implementation Details 17
4.2 Experimental Results 18
4.2.1 Quantitative and Qualitative Results 18
4.3 Ablation Analysis 22
4.3.1 Ablation on Hierarchical Group Merging 22
4.3.2 Ablation on Group-Gated Token Refiner 23
4.3.3 Ablation on Dynamic State Prompt 24
4.3.4 Comparison of Computational Efficiency 24
4.3.5 Backbone Comparison: CLIP, DINOv2, and DINOv3 25
4.3.6 Effects of Hierarchical Group Merging 26
V Limitation 29
VI Conclusion 30
Bibliography 31

