이미지 업스케일링을 위한 지역 어텐션 정보와 전역 어텐션 정보의 멀티레벨 융합을 바탕을 둔 비전 트랜스포머 설계 및 실험
A Vision Transformer with Multi-level Fusion of Local and Global Attention Information for Image Upscaling
- 주제어 (키워드) ViT , Super-Resolution
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000078999
- UCI I804:11029-000000078999
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 Vision Transformer(이하 ViT) 기반 Image Super-Resolution 방법은 성능 면에서 큰 성공을 이뤘지만, 과도하게 복잡한 모델로 인하여 추론시간과 메모리 점유율에서 큰 부하를 겪고 있다. 이 문제를 극복하기 위해, ViT의 멀티헤드와 depth를 하나로 결합한 모델을 제안한다. 제안한 방법은 이미지 feature가 들어오면 이를 Multi-head 방식으로 자른 다음, 각 head의 feature를 정해진 횟수만큼 풀링을 적용한 다음 self-attention을 계산한다. 다음으로 그 결과를 상위 레이어로 보냄으로써 상위 레이어는 window 너머의 정보를 이용하여 self attention 계산이 가능하다. 이 연구에서 제안한 방식은 기존 ViT을 이용한 이미지 업스케일링 기술에 비해 추론 시간과 gpu 메모리 점유율을 크게 줄이면서도 성능을 유지한다.
more초록 (요약문)
Recently, the Vision Transformer (hereinafter referred to as ViT) based image super-resolution method has achieved great success in terms of performance, but it is experiencing great loads in inference time and memory share due to excessively complex models. To overcome this problem, we propose a model that combines the multi-head and depth of ViT into one. The proposed method cuts the image feature in units of channels when it comes in, and applying self-attention to each of these chunks replaces depth. In addition, by sending this result to the upper layer, the upper layer can calculate self-attention using information beyond the window. The method proposed in this study maintains performance while significantly reducing inference time and gpu memory share compared to the existing image upscaling technology using ViT.
more목차
1 서론 10
2 관련 연구 13
2.1 이미지 업스케일링을 위한 기존의 연구 13
2.2 문제점 분석 14
3 지역 전역 특징 벡터의 멀티레벨 융합 기반 비전 트랜스포머의 설계 16
3.1 요구사항 분석 16
3.2 전체적인 구조 16
3.2.1 지역 전역 융합 멀티레벨 비전 트랜스포머 블록 18
3.2.2 어텐션 레이어 19
3.2.3 CCM : Convolutional Channel Mixer 19
3.2.4 작동 방식 및 계산 복잡도 20
4 실험 및 분석 24
4.1 실험 방법 및 데이터셋 24
4.1.1 데이터셋 24
4.1.2 실험 방법 24
4.2 성능 평가 및 분석 25
4.2.1 이미지 재구성 평가 25
4.2.2 상향식 멀티레벨 융합의 영향 분석 29
4.2.3 풀링에 따른 지역, 전역 정보 획득의 영향 분석 31
4.2.4 Block, Channel, Head, 그리고 Depth 수에 따른 성능 분석 33
4.2.5 정성 평가 37
4.3 관련 연구와의 비교 40
5 결론 및 향후 과제 48
References 49