검색 상세

비전 트랜스포머 인코더-디코더 입력단계 모듈 추가를 통한 작은 크기의 객체 탐지성능 향상 방법

Improving Small Object Detection Performance through the Addition of a Module in the Vision Transformer Encoder-Decoder Input Stage

초록 (요약문)

항공사진 객체탐지 및 자율주행에서 주로 사용되는 작은 크기의 객체 탐지는 정보 손실, 노이즈 섞인 특징, 위치 오차에 대한 민감도 등으로 인해 일반 객체 탐지와는 다른 접근이 필요하다. 비전 트랜스포머 기반 객체탐지 모델인 DETR 과 그 개량 모델들은 일반객체 탐지 밴치마크 데이터셋인 MSCOCO 에서 우월한 성능을 보이나, 저해상도, 상대 위치 편향 부족, Locality 부족으로 인해 작은객체 탐지 분야에서는 상대적으로 낮은 성능을 보여왔다. 이를 해결하기 위해 변형된 DETRs 모델들은 계층적 특징백터 활용, 백본 변형, 바운딩 박스 조정 등이 시도되었지만, 여전히 CNN 계열 탐지기에 비해 한계가 존재한다. 본 연구는 DETR 계열 모델의 작은객체 탐지 성능을 높이기 위해 (1) 단일 레이어의 지역 특징백터를 교차 입력하는 방법과 (2) 디코더 입력 단계에서 지역편향을 추가하는 방법을 제안한다. 이를 통해 특징맵의 저해상도와 Locality 부족 문제를 해결하고, 모델에 부족한 상대편향을 보완하여 작은객체 탐지 성능을 향상시킨다. 작은 크기와 일반 크기의 객체로만 구성된 항공사진 데이터셋인 SODA-A 를 활용하여 실험한 결과, 베이스라인 모델인 H-DETR 대비 mAP 에서 +1.22, mAPs 에서 +1.5 의 성능 향상을 달성했다.

more

초록 (요약문)

Small object detection, a critical task in aerial imagery and autonomous driving, demands specialized approaches due to challenges such as information loss, noisy features, and sensitivity to localization errors. While vision transformer-based object detection models like DETR and its derivatives demonstrate superior performance on general object detection benchmarks like MSCOCO, they face limitations in small object detection due to issues like low-resolution feature maps, lack of relative positional bias, and insufficient locality. To address these challenges, modified DETR models have attempted solutions such as leveraging hierarchical feature vectors, backbone adjustments, and bounding box refinements, but they still fall short compared to CNN-based detectors. This study proposes two methods to enhance small object detection performance in DETR-based models: (1) cross-input integration of local feature vectors at a single layer and (2) incorporating local bias into the decoder input stage. These approaches aim to resolve low-resolution feature map issues, improve locality, and supplement the model with relative positional bias, ultimately improving detection performance for small objects. Experiments conducted on the SODA-A dataset, which consists of aerial images featuring small and general-sized objects, demonstrate an improvement of +1.22 in mAP and +1.5 in mAPs compared to the baseline H-DETR model.

more

목차

1. 서론 1
2. 연구 배경 3
2.1 문제 정의 3
2.2 관련 연구 5
2.2.1 CNN 기반 객체탐지 모델 5
2.2.2 비전 트랜스포머 기반 객체탐지 모델 9
2.2.3 작은객체 탐지에 대한 연구 13
2.2.4 인코더 입력 단계의 특징백터 사용에 관한 연구 13
2.2.5 디코더 입력 단계의 상대편향 추가에 관한 연구 17
3. 작은객체 탐지를 위한 비전 트랜스포머 기반 객체탐지 방법 설계 19
3.1 요구사항 분석 19
3.2 전체 시스템 구조 설계 23
3.2.1 인코더 입력 단계에서의 특징백터 교차입력 방법 설계 26
3.2.2 디코더 입력 단계에서의 지역편향 추가 방법 설계 29
4. 실험 및 분석 32
4.1 실험 환경 및 데이터셋 32
4.2 실험 및 성능 분석 35
4.2.1 인코더 입력 단계에서의 특징백터 교차입력 방법 성능 분석 ·· 35
4.2.2 디코더 입력 단계에서의 지역편향 추가방법 성능 분석 43
4.2.3 작은객체 탐지 성능 분석 44
4.3. 기존 작은 크기의 객체 탐지 연구와 비교 분석 50
5. 결론 및 향후 과제 51
6. 참고 문헌 54

more