Vision Transfomer와 원-핫 인코딩 이동 경로를 이용한 미행 검출
Tailing Detection Using Vision Transformer with One-hot Encoded Moving Path
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2022
- 학위수여년월 2022. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000066633
- UCI I804:11029-000000066633
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근, 전 세계적으로 CCTV 설치 보급이 확대되면서 하루에도 수백 GB 이상의 비디오 데이터가 생성되고 있다. 급속도로 증가한 대량의 비디오 데이터는 제한된 인력이 수동으로 관제하기 어려운 문제가 있었고, 자동으로 비디오를 처리하고 분류하는 인공지능 연구로 이어지고 있다. 미행은 한 보행자가 거리를 둔 채 다른 보행자를 같은 방향으로 계속 따라가는 행위이다. 미행은 폭행, 납치, 절도 등 강력 범죄로 확산이 될 가능성이 높아서 미행을 사전에 검출하는 것으로 다른 범죄로의 확산을 예방할 수 있다. 미행 상황은 보행자들의 행동이나 포즈가 일반적인 보행 상황과 크게 다르지 않기 때문에, 미행을 검출하기 위해 일정 시간 이상의 영상에서 보행자들의 이동 경로를 분석하여 미행 패턴을 찾아내는 것이 필요하다. 본 논문에서는 영상에서 시간에 따른 보행자의 공간적 위치를 표현할 수 있는 One-hot 이미지 기반의 보행자 이동 경로 표현 방법에 대해 제안한다. One-hot 이미지 기반의 보행자 이동 경로는 영상에 출연하는 보행자의 수와 관계없이 이미지 형식의 고정된 크기를 유지하면서 다수의 보행자들의 공간적 정보를 표현할 수 있다. 미행과 관련된 공개 데이터셋의 부재는 자체 데이터셋 제작의 동기가 되었고 실험을 위해 246개 영상 규모의 미행 데이터셋을 직접 촬영하여 제작하였다. 본 논문에서는 보행자 이동 경로를 분석하는 모델로 비전 트랜스포머를 활용하였다. 미행 검출 성능 향상을 위해 UCF-Crime 데이터셋을 사전 학습하는 실험과 Ordered Random Sampling 방식을 통해 학습 데이터를 증강하는 실험을 진행하였다.
more초록 (요약문)
Recently, as CCTV installation spreads worldwide, video data of hundreds of GBs or more is being generated every day. The rapidly increasing amount of video data has made it difficult for a limited manpower to manually control it, leading to artificial intelligence research that automatically processes and classifies videos. The tailing is the act of one pedestrian continuing to follow another pedestrian in the same direction while keeping a distance. Since there is a high possibility that the tailing end up with violent crimes such as assault, kidnapping, or theft, it is possible to prevent upcoming crimes by detecting the tailing in time. Since the behavior or poses of pedestrians in the tailing situation are not significantly different from the general walking, it is necessary to find the tailing pattern in order to detect the tailing, by analyzing the movement path of the pedestrians in the image for a certain period of time or longer. In this thesis, one-hot image based pedestrian path is proposed to use to express the spatial locations of pedestrians as time flows. One-hot image based pedestrian path can express the spatial information of multiple pedestrians while maintaining the fixed size of the image format regardless of the number of pedestrians appearing in the video. The absence of a public data set related to tailing became the motivation for creating our own data set, and 246 videos of tailing and normal situation are recorded. In this thesis, a vision transformer was used as a model to classify the pedestrian path. In order to improve the tailing detection performance, pre-training on UCF-Crime dataset and augmentation of the training dataset through an ordered random sampling method were performed.
more

