Siamese Network Based Online Object Tracking
- 주제(키워드) Object tracking , Siamese Network , Deep learning , Online learning , Adversarial learning
- 발행기관 서강대학교 일반대학원
- 지도교수 박래홍
- 발행년도 2019
- 학위수여년월 2019. 2
- 학위명 박사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000064236
- UCI I804:11029-000000064236
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
In computer vision field, object tracking is one of the major tasks that have been studied for a long time. Traditional object tracking methods focus on developing robust appearance models with hand-crafted features. Some object tracking methods learn object models and use online learning algorithms for temporal robustness. Recently, using deep learning, object tracking has achieved very high performance. However, online object tracking based on deep learning has not been studied much. This dissertation focuses on online object tracking based on Siamese network, which has efficient deep structure for comparing object similarity. First, this dissertation proposes an efficient Siamese structure, single shot multibox Siamese tracker (SSST), for object tracking and compares the proposed structure with the latest deep structure, i.e., DenseNet. Object detection and tracking have been developed and complemented each other in computer vision field. Recently, object detection pipelines with deep learning, especially single shot multibox detector (SSD) and region based convolutional network, dramatically improve the performance of object detection. Motivated by the SSD, the proposed SSST is proposed, which simultaneously tracks the object shape and location with predefined windows. Each predefined window is tracked independently, and then these tracked windows are combined into final tracked target window using non-maximum suppression. The proposed SSST is constructed by hierarchical structure and uses a coarse-to-fine search scheme. Experimental results show that the proposed SSST achieves comparable performance with existing Siamese trackers. Second, for online object tracking, this dissertation proposes an attention network. To construct the proposed attention network for sequential data, we combine long short-term memory (LSTM) and residual framework into residual LSTM (RLSTM). The LSTM which learns temporal correlation is used for temporal learning of object tracking. In the proposed RLSTM method, the residual framework, which achieves the highest accuracy in ILSVRC 2016, learns variations of spatial inputs and thus achieves spatio-temporal attention of the target object. Also, rule-based RLSTM learning is used for robust attention. Experimental results show that the proposed RLSTM tracker achieves the highest performance among existing trackers including Siamese trackers, attention trackers, and correlation trackers, and also has comparable performance with the state-of-the-art deep trackers. Finally, in this dissertation, a Siamese adversarial network tracker (SANT) is proposed for robust online object tracking. Recently, in computer vision field, generative adversarial network (GAN) has been widely used for image and video generation. Using the GAN, the proposed method constructs a Siamese adversarial network (SAN) for object tracking. Unlike existing GANs, the proposed SAN uses similarity learning with SAN discriminator. To show the effectiveness of the proposed SAN, we use the same structure as the residual long short-term memory tracker. Experimental results show that the proposed SANT achieves the highest performance among existing Siamese trackers. This dissertation proposes a structure of Siamese tracker and Siamese network based online object trackers. Online object trackers (RLSTM tracker and SANT) are combined with the proposed structure of SSST. Experimental results show that the proposed SANT with the structure of SSST has the performance comparable with that of the state-of-the-art trackers.
more초록/요약
컴퓨터 비전 분야에서 객체 추적은 오랜 시간 동안 연구 된 주요 과제 중 하나이다. 전통적인 객체 추적 방법은 손으로 만들어진 기능으로 견고한 모양 모델을 개발하는 데 초점을 둔다. 일부 객체 추적 방법은 객체 모델을 학습하는 시간적 강건성을 위해 온라인 학습 알고리즘을 사용합니다. 최근에는 딥러닝을 사용하여 객체 추적이 매우 높은 성능을 달성하였다. 그러나, 딥러닝에 기반한 온라인 객체 추적은 많이 연구 되지 않았다. 이 논문은 객체의 유사도를 비교하기에 효율적인 구조인 Siamese 네트워크에 기반한 온라인 객체 추적에 초점을 두고 있다. 먼저, 이 논문은 물체 추적을 위한 효율적인 Siamese 구조인 single shot multibox Siamese tracker (SSST)를 제안하고, denseNet과 같은 최신의 딥 네트워크 구조와 비교한다. 컴퓨터 비전 분야에서 객체 탐지 및 추적이 개발되고 보완되었다. 최근에는 single shot multibox detector (SSD) 및 region based convolutional network와 같이 딥러닝을하는 물체 감지 파이프 라인이 물체 감지 성능을 획기적으로 향상시킨다. SSD에 의해 동기 부여 된 제안 된 SSST는 미리 정의 된 창으로 객체 모양과 위치를 동시에 추적한다. 미리 정의 된 각 윈도우는 독립적으로 추적되며, 이 추적 윈도우는 비 최대 억제를 사용하여 최종 추적 대상 윈도우로 결합된다. 제안 된 SSST는 계층 적 구조로 구성되어 있으며, coarse-to-fine 검색 방식을 사용한다. 실험 결과는 제안 된 SSST가 기존 Siamese 추적자와 비교할만한 성능을 달성 함을 보여준다. 두 번째로, 온라인 객체 추적을 위해 이 논문은 attention 네트워크를 제안한다. 순차적 데이터에 대해 제안 된 attention 네트워크를 구성하기 위해 장 단기 메모리 (LSTM)와 잔여 프레임 워크를 잔여 LSTM (RLSTM)에 결합한다. 시간 상관을 학습하는 LSTM은 객체 추적의 시간적 학습을 위해 사용된다. 제안 된 RLSTM 방법에서, ILSVRC (2016)에서 가장 높은 정확도를 달성하는 잔여 프레임 워크는 공간 입력의 변화를 학습하고 따라서 대상 객체의 시공간 attention를 얻는다. 또한 규칙 기반 RLSTM 학습은 강력한 관심을 끌기 위해 사용된다. 실험 결과는 제안 된 RLSTM 추적기가 Siamese 추적 방법, attention 추적 방법 및 correlation 추적 방법을 포함하여 기존 추적 방법 중에서 가장 높은 성능을 달성하고 최첨단 추적 방법과 비교할 수 있는 성능을 가짐을 보여준다. 마지막으로, 이 논문에서는 강건한 온라인 물체 추적을 위해 Siamese adversarial network tracker (SANT)가 제안되었다. 최근에는 컴퓨터 비전 분야에서 GAN (Generative Adversarial Network)이 영상 생성 및 비디오 생성에 널리 사용되고 있다. 제안된 방법은 GAN을 사용하여 객체 추적을 위한 Siamese adversarial network (SAN)를 구성합니다. 기존의 GAN과는 달리 제안된 SAN은 Siamese discriminator와 유사성 학습을 사용한다. 제안된 SAN의 효과를 나타내기 위해 잔여 장시간 메모리 추적기와 동일한 구조를 사용한다. 실험 결과는 제안 된 SANT가 기존의 Siamese 추적기 중에서 가장 높은 성능을 달성 함을 보여준다. 이 논문은 하나의 Siamese 추적기의 구조와 Siamese 네트워크 기반의 온라인 물체 추적기들을 제안한다. 온라인 물체 추적기들 (RLSTM 추적기와 SANT) 은 제안하는 Siamese 추적기 구조와 결합된다. 제안하는 Siamese 추적기 구조와 결합된 제안하는 SANT는 기존의 가장 뛰어난 추적기들과 비교할 수 있는 성능을 가진다.
more