Focal loss를 이용한 Siamese network 기반의 실시간 객체 추적
Real-time visual tracking using Siamese network with focal loss
- 주제(키워드) 컴퓨터비전 , 객체 추적 , 객체 검출 , 딥러닝 , 머신러닝
- 발행기관 서강대학교 일반대학원
- 지도교수 김경환
- 발행년도 2019
- 학위수여년월 2019. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000064036
- UCI I804:11029-000000064036
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
In this thesis, we propose a single target tracker based on a Siamese network. The Siamese network employs convolutional neural network(CNN) to measure similarity between two inputs and have been used to predict where an object of interest marked in the initial frame is. Trackers based on Siamese network show high speed without online update but still suffer from inaccurate estimations due to objects around the target. We, therefore, employ the focal loss along with the object score map to deal with the problem of distraction from easy negative examples. During training, the focal loss down-weights easy negative examples which correspond to the background classes. We also set parameters to regress bounding box and we apply the Hanning window to highlight the object in the initial frame from the background. An ablation analysis proves the effectiveness of the focal loss and the object score map, without speed degradation. Also, in experiments on VOT2017 and VOT2018, the proposed tracker shows promising performance comparing to state-of-the-art trackers with real-time processing about 153fps.
more초록/요약
본 논문에서는 Siamese network에 기반한 실시간 단일 객체 추적기를 제안한다. Siamese network 기반한 추적기는 convolutional neural network(CNN)로 구성되어, 두 입력 영상의 유사도(similarity)를 통해 매 프레임마다 추적 객체의 위치를 찾아낸다. 추가적인 온라인 학습이 없어 빠른 처리속도와 함께, CNN을 통한 높은 추적 성능을 보인다. 그러나, 객체 주변에서의 잘못된 추정에 의해 여전히 어려움을 겪으며, 이러한 잘못된 추정은 추적이 진행될수록 누적되기 때문에, 추적 성능에 큰 영향을 미칠 수 있다. 따라서 객체 주변에서의 잘못된 추정을 오프라인 학습 과정에서 크게 반영시키기 위해, object score map을 도입하고 focal loss를 통하여 학습을 수행한다. Focal loss를 통해 학습이 쉽고 그 수가 많은 배경의 영향력을 줄일 수 있어 학습에 어려움을 겪는 객체 주변에서의 손실함수에 크게 반영할 수 있다. 추가적으로 bounding box를 계산하기 위한 파라미터를 도입하고, Hanning window를 통해 첫 영상에서의 객체 정보를 배경으로부터 강조한다. 제안하는 각각의 방법들을 비교하여, 처리속도의 성능 하락 없이 focal loss와 object score map을 통한 성능향상을 확인하였다. VOT2017, VOT2018 벤치마크를 통해, 제안하는 네트워크는 153 FPS의 빠른 처리속도와 함께 최신 방법들과 비교하여 우수한 성능을 보이고 있다.
more