DETR을 활용한 자기 회귀 객체 시퀀스 탐지
Autoregressive Object Sequence Prediction using DETR
- 주제어 (키워드) 기계학습 , 심층신경망 , 경량 딥러닝 , 객체 탐지
- 발행기관 서강대학교 일반대학원
- 지도교수 양지훈
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000078866
- UCI I804:11029-000000078866
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
객체 탐지는 이미지 인식의 대표적인 분야로서, DETR과 같이 트랜스포머 기반 모델의 등장으로 높은 발전을 이룩했으나 DETR 구조가 지닌 한계를 효 율적으로 개선하려는 노력은 부족하다. 특히 DETR은 희소 탐지(sparse detection)와 object query에 대한 지나친 의존성 등으로 인해 학습 불안정 성을 갖고 있다. 후속 연구에서 이러한 문제를 해결하기 위해 여러 방안을 제 시하였으나, 효율적이면서 동시에 안정적인 해결책에 대한 연구는 부족하다. 본 연구에서는 이를 해소할 효율적인 방법을 제시한다. DETR에서 디코더 의 연산량이 가장 비중이 크므로, 디코더의 layer 개수를 줄이고 기존의 multi-scale attention를 모든 scale의 feature를 한 번에 고려할 수 있는 새 로운 방법으로 대체하여 연산 효율성을 높이고 성능 또한 개선하였다. 그리고 자기 회귀 예측 구조를 도입하여 object query에 대한 의존성을 줄이고, 동 적인 연산을 수행하는 구조를 설계하였다. 마지막으로, Hungarian matching 으로 인해 발생하는 학습 불안정성을 위해 sequence matching을 순차적으로 적용하여 보다 안정된 학습을 유도하였다. 이러한 접근 방식으로 MS COCO 2017 데이터세트에서 더 적은 모델 크기에도 불구하고 DN-DETR, DAB-DETR 등의 DETR 계열 모델보다 우수한 성능을 보여주었다. 더 나아 가, 해당 모델의 효율성을 바탕으로 고해상도 이미지 데이터세트 중 하나인 CityPersons에서도 트랜스포머 기반 모델로 높은 성능을 달성하였다.
more목차
제 1 장 서론 1
1.1. 연구 배경 1
1.2. 논문의 구성 7
제 2 장 관 련 연 구 8
2.1. 비전 트랜스포머 연구 8
2.1.1. 트랜스포머와 ViT 구조 8
2.1.2. Hierarchical 트랜스포머 연구 9
2.2. 객체 탐지 모델 연구 11
2.2.1. CNN과 밀집 탐지 연구 12
2.2.2. 트랜스포머와 희소 탐지 연구 13
2.2.3. 보행자 탐지 연구 14
제 3 장 DETR을 활용한 객체 시퀀스 예측 17
3.1. 선행 연구 모델의 구조 17
3.1.1. DETR 구조 17
3.1.2 Deformable-DETR 구조 19
3.2. Sequence DETR 19
3.2.1. 효율적인 deformable multi-scale attention 20
3.2.2. Sequence Matching 21
3.2.3. 자기 회귀 예측 22
3.2.4. Dynamic Feature 학습 23
3.3. 고해상도 이미지를 위한 CNN 하이브리드 모델 25
제 4 장 실험 및 결과 27
4.1. 실험 방법 27
4.1.1. 데이터세트 27
4.1.2. 실험 설정 및 구현 28
4.2. 실험 결과 29
4.2.1. MS COCO 2017 detection 29
4.2.2. Matching 알고리즘 비교 31
4.2.3. CityPersons 33
제 5 장 결론 및 향후 과제 35
참 고 문 헌 37