검색 상세

DETR을 활용한 자기 회귀 객체 시퀀스 탐지

Autoregressive Object Sequence Prediction using DETR

초록 (요약문)

객체 탐지는 이미지 인식의 대표적인 분야로서, DETR과 같이 트랜스포머 기반 모델의 등장으로 높은 발전을 이룩했으나 DETR 구조가 지닌 한계를 효 율적으로 개선하려는 노력은 부족하다. 특히 DETR은 희소 탐지(sparse detection)와 object query에 대한 지나친 의존성 등으로 인해 학습 불안정 성을 갖고 있다. 후속 연구에서 이러한 문제를 해결하기 위해 여러 방안을 제 시하였으나, 효율적이면서 동시에 안정적인 해결책에 대한 연구는 부족하다. 본 연구에서는 이를 해소할 효율적인 방법을 제시한다. DETR에서 디코더 의 연산량이 가장 비중이 크므로, 디코더의 layer 개수를 줄이고 기존의 multi-scale attention를 모든 scale의 feature를 한 번에 고려할 수 있는 새 로운 방법으로 대체하여 연산 효율성을 높이고 성능 또한 개선하였다. 그리고 자기 회귀 예측 구조를 도입하여 object query에 대한 의존성을 줄이고, 동 적인 연산을 수행하는 구조를 설계하였다. 마지막으로, Hungarian matching 으로 인해 발생하는 학습 불안정성을 위해 sequence matching을 순차적으로 적용하여 보다 안정된 학습을 유도하였다. 이러한 접근 방식으로 MS COCO 2017 데이터세트에서 더 적은 모델 크기에도 불구하고 DN-DETR, DAB-DETR 등의 DETR 계열 모델보다 우수한 성능을 보여주었다. 더 나아 가, 해당 모델의 효율성을 바탕으로 고해상도 이미지 데이터세트 중 하나인 CityPersons에서도 트랜스포머 기반 모델로 높은 성능을 달성하였다.

more

목차

제 1 장 서론 1
1.1. 연구 배경 1
1.2. 논문의 구성 7
제 2 장 관 련 연 구 8
2.1. 비전 트랜스포머 연구 8
2.1.1. 트랜스포머와 ViT 구조 8
2.1.2. Hierarchical 트랜스포머 연구 9
2.2. 객체 탐지 모델 연구 11
2.2.1. CNN과 밀집 탐지 연구 12
2.2.2. 트랜스포머와 희소 탐지 연구 13
2.2.3. 보행자 탐지 연구 14
제 3 장 DETR을 활용한 객체 시퀀스 예측 17
3.1. 선행 연구 모델의 구조 17
3.1.1. DETR 구조 17
3.1.2 Deformable-DETR 구조 19
3.2. Sequence DETR 19
3.2.1. 효율적인 deformable multi-scale attention 20
3.2.2. Sequence Matching 21
3.2.3. 자기 회귀 예측 22
3.2.4. Dynamic Feature 학습 23
3.3. 고해상도 이미지를 위한 CNN 하이브리드 모델 25
제 4 장 실험 및 결과 27
4.1. 실험 방법 27
4.1.1. 데이터세트 27
4.1.2. 실험 설정 및 구현 28
4.2. 실험 결과 29
4.2.1. MS COCO 2017 detection 29
4.2.2. Matching 알고리즘 비교 31
4.2.3. CityPersons 33
제 5 장 결론 및 향후 과제 35
참 고 문 헌 37

more