검색 상세

자기지도학습과 지역적 어텐션을 통한 비전 트렌스포머 모델 성능 향상 방법

Method of improving performance of the vision transformer model using self-supervised learning and regional attention

초록 (요약문)

In order to train a Vision Transformer model that applies a Transformer model which performs well in the field of natural language processing to the field of computer vision, appropriate patch size settings and a lot of learning data are required. In fact, if the patch size is small, learning is impossible using one GPU, and if the patch size is large, the correlation between small parts of the image cannot be considered. In addition, if there is not enough data to train the model, it shows lower performance than the existing convolutional neural network(CNN) based model. In this thesis, to solve the problems of vision transformers mentioned above, we propose a methodology for applying a self-supervised learning algorithm to a swin transformer model to which a regional attention algorithm is applied. In addition, a new Window Token technique is proposed so that the swin transformer model can be learned using a multi-objective function. In this thesis, it was confirmed through experiments that the proposed method exhibits higher performance than the existing self-supervised learning method.

more

초록 (요약문)

자연어처리(Natural Language Processing) 분야에서 좋은 성능을 보이고 있는 트랜스포머(Transformer)모델을 컴퓨터 비전분야에 적용시킨 비전 트랜스포머(Vision Transformer) 모델을 학습시키기 위해서는 알맞은 패치크기 설정과 많은 학습 데이터가 필요하다. 실제로 패치 크기가 작으면 한 개의 GPU를 사용해서는 학습이 불가능하고, 패치 크기가 클 경우 이미지의 작은 부분들 간의 상관관계를 고려하지 못하게 된다. 또한 해당 모델을 학습할 데이터가 충분하지 않으면 기존의 합성곱 신경망(CNN) 기반의 모델보다 낮은 성능을 보인다. 본 논문에서는, 위에서 언급한 비전 트랜스포머의 문제점들을 해결하기 위해, 로컬 어텐션(Local Attention) 알고리즘을 적용시킨 스윈 트랜스포머(Swin Transformer) 모델에 자기지도학습(Self-supervised Learning) 알고리즘을 적용시키는 방법론을 제안한다. 또한 윈도우 토큰(Window Token) 기법을 새롭게 제안하여 다중 목적 함수를 활용하여 스윈 트랜스포머 모델을 학습할 수 있도록 한다. 본 논문에서는 실험을 통해 제안된 방법이 기존의 자기지도학습 방법보다 높은 성능을 보이는 것을 확인하였다.

more