검색 상세

계층적 주의 메커니즘을 이용한 이미지 분류 모델

Image Classification Model Using Hierarchical Attention Mechanism

초록/요약

최근 빅데이터 및 고성능 하드웨어 발전의 영향으로 딥러닝을 이용해 이미지나 비디오를 이해하고 해석하는 연구가 매우 활발하게 진행되고 있다. 영상 처리 중 이미지 분류(Image classification)는 컴퓨터 비전 분야에서 가장 핵심적인 기술 중 하나로, 최근에는 중요도(Attention)를 활용한 연구가 활발하게 진행되고 있다. 그러나, 현재 컴퓨터 비전 분야에서 주의 메커니즘(Attention Mechanism)을 활용한 모델은 단일 단계(Single-stage)로 중요도를 연산하지만, 이는 축적된 경험이 없는 새로운 경험을 의미하며, 이렇게 획득한 중요도는 적절성에 대한 문제점이 발생한다. 이를 해결하기 위해 본 논문에서는 계층적 다중 단계(Multi stage)에 걸쳐 중요도를 점진적으로 획득하고, 이를 활용하는 Hierarchical Attention Module (HAM)을 제안한다. HAM은 하나의 모델이 아닌 HCAM(Hierarchical channel attention module)과 HSAM(Hierarchical spatial attention module)으로 이루어져 있으며 본 논문에서는 HCAM, HSAM 및 통합 모델인 HAM에 대한 실험을 진행하였다. 실험은 CIFAR-100 데이터 셋[4]에 대하여 진행하였으며, 컴퓨터 비전 분야에서 중요도를 활용한 선행 연구인 SENet, BAM, CBAM 등의 모델과 동일한 환경에서 실험을 진행하고 비교함으로써, 제안하는 모델의 성능을 검증하고 그 유효성을 입증하였다. 실험 결과, 제안하는 주의 메커니즘을 적용한 모델에서 1.58%의 성능 향상을 얻을 수 있었다.

more

초록/요약

Recently, there have been many studies about understanding and interpreting images or videos through deep learning under the influence of big data and high-performance hardware. Image classification is one of the most important technologies in the computer vision. Studies on image classification have also been actively conducted by using attention mechanisms in these days. Typical image classification model using attention mechanism calculates the attention score in a single step, which does not utilize older memories. To overcome this problem, we propose the Hierarchical Attention Module (HAM) that acquires attention through a hierarchical structure. Hierarchical Attention Module (HAM) consists of Hierarchical Channel Attention Module (HCAM) and Hierarchical Spatial Attention Module (HSAM). Evaluations are conducted separately with each module (i.e., HCAM and HSAM) and the integrated module (i.e., HAM) using CIFAR-100 dataset. The performance of the proposed model is also compared with those of SENet, BAM and CBAM with the same experimental setup. Experimental results showed that the proposed model is better than traditional model by 1.58%.

more