근복사 이미지 검출을 위한 Vision Transformer 경량화 방법
A Lightweight Vision Transformer for Near-Duplicated Image Detection
- 주제어 (키워드) 근복사 이미지 검출 , 대조 학습 , ViT , 경량화 , 프루닝; Near-Duplicate Image Detection , Contrastive Learning , Vision Transformer , Lightweight-Modeling , Pruning
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076977
- UCI I804:11029-000000076977
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
소셜 미디어와 컨텐츠 공유 플랫폼에 불법 컨텐츠가 대량으로 업로드되는 문제를 해결하기 위해, 딥러닝을 활용한 근복사 이미지 검출이 중요한 컨텐츠 검열 기술로 연구되고 있다. 현재 근복사 검출 연구에서 Vision Transformer (ViT)를 적용한 연구는 정확도 개선에 집중하고 있으나, 연산 비용을 고려하고 있지 않다는 문제가 있다. 이 문제를 해결하기 위해, 본 논문에서는 트랜 스포머의 멀티 헤드 프루닝을 사용한 근복사 이미지 검출 태스크에서의 ViT의 경량화 방법을 제안한다. 제안한 방법에서는 근복사 이미지 검출 응용에 Fine-Tuning되어 있는 ViT의 구성 요소인 여러 개의 Attention Head들의 중복 성을 분석하여 필요 없는 Head를 제거하는 방법을 사용하며, 중복성 분석을 위한 기준으로 Attention Map 분석을 통한 Similarity-based 방법 및 Score-based 방법을 사용한다. 또한, 본 논문에서는 기능이 중복된 Attention Head 를 제거한 후 근복사 이미지 검색을 위한 대조 학습(Contrastive Learning) 방법을 사용하여 Fine-tuning함으로써 정확도를 복원한다. 이 연구에서 제안 한 프루닝 방식이 적용된 모델은 기존 근복사 이미지 검출 모델에 비해 정확 도는 소폭 감소하나, 연산량과 파라미터 수는 현저히 감소한다.
more초록
To address the issue of mass illegal content uploads on social media and content-sharing platforms, deep learning-based near-duplicated image detection is being researched as an important content moderation technology. Current research on near-duplicated detection using Vision Transformer(ViT) focuses on improving accuracy but does not consider computational cost. To address this, this thesis proposes a lightweight method for ViT in the task of near-duplicated image detection using multi- head pruning of the transformer. The proposed method employs fine-tuned ViT for near-duplicated image detection to analyze the redundancy and remove unnecessary Attention Heads using Similarity-based method from Attention Map analysis and Score-based method. Furthermore, the thesis employs contrastive learning for fine-tuning after removing redundant Attention Heads to restore accuracy. Models applying the pruning methods proposed in this thesis shows a slight decrease in accuracy compared to existing near-duplicated detection models but significantly reduces the amount of computation and the number of parameters.
more목차
1 서 론 11
2 연구 배경 13
2.1 근복사 이미지 검출 문제 정의 . 13
2.2 관련 연구 . 17
2.3 기존 연구에 대한 문제점 분석 . 22
3 근복사 이미지 검출 시스템 설계 24
3.1 요구사항 분석 24
3.2 전체 근복사 이미지 검출 시스템 구조 25
3.3 VIT ATTENTION HEAD 경량화 방법 . 27
3.3.1 유사도 기반 방법 27
3.3.2 점수 기반 방법 . 31
4 실험 및 분석 33
4.1 실험 방법 및 데이터셋 33
4.1.1 데이터 셋 33
4.1.2 실험 방법 37
4.1.3 VIT 모델의 연산량 분석 39
4.2 ATTENTION HEAD 경량화 방법 성능 분석 . 41
4.2.1 정확도 분석 . 42
4.2.2 모델 크기 및 연산량 분석 . 47
4.3 분석 51
4.4 기존 연구와의 비교 분석 60
5 결론 및 향후 과제 . 63
참고 문헌 . 65