이동 경로 인코딩을 이용한 CCTV 환경에서의 미행 검출
Tailing Detection in CCTV Environments Using Trajectory Encoding
- 주제어 (키워드) 미행 검출 , 보행자 이동 경로 , ByteTrack , ViViT
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000069927
- UCI I804:11029-000000069927
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
인공지능 기술이 고도화 되면서 영상 분석에서 적용할 수 있는 기술들이 다양화 되어가고 있으나, CCTV 환경에서 이상 상황 탐지는 제한된 데이터의 양으로 인하여 기술 개발이 제한적이고, CCTV의 특성 상 무거운 모델은 사용하기 어렵기 때문에 효율적인 연구 방향성이 필요하다. 미행은 사람의 행동을 감시하거나 그 사람 몰래 뒤를 밟는 상황으로서 폭행, 납치 등의 범죄 행위의 전조 현상이다. 하지만 단일 영상에서 미행을 탐지하기란 사람의 눈으로도 정확하게 검출하기 어려우며, 다른 이상 상황보다 영상의 양이 현저히 적기 때문에 효과적으로 미행을 검출하기 위한 방법이 필요하다. 본 논문에서는 미행을 검출하기에 앞서, 대표적인 이상 상황 중 하나인 폭력 상황 탐지 실험을 통해 비디오 분류 모델의 이상 상황 탐지 적용에 대해 진행한다. 그리고 보행자들의 이동 경로를 특정 환경에 제한되지 않고 범용적으로 분석이 가능할 수 있게 하기 위해서 사람의 객체 추적 결과 값을 기반하여 이동 궤적을 생성하고, 영상 프레임 별 배경을 제거한 후 사람의 정보만 나타내는 형태의 이동 경로 인코딩 방법을 적용하여 영상 클립을 구성함에 따라 보행자들의 이동에 대한 공간적, 시간적 정보를 표현할 수 있다. 그리고 학습을 위한 미행 영상은 실재하지 않기 때문에 CCTV 환경과 유사한 카메라 각도에서의 영상 촬영, Open world 비디오 게임 GTA5를 이용한 미행 영상 생성으로 데이터 셋을 구축하였다. 그러나 많은 데이터 셋을 구축하는 것은 현실적으로 비용이 많이 들기 때문에 적은 데이터 셋으로도 충분히 성능을 낼 수 있게 하기 위해 사전 훈련된 Vision Transformer를 이용한 Vidoe Vision Transformer를 사용하였다. 그리고 Edge Device에서의 배포 목적으로 모델 경량화 기법 중 하나인 Knowledge Distillation을 사용하여 모델 크기 축소 실험을 진행하였다.
more초록 (요약문)
As artificial intelligence technology is being advanced, we can apply various technologies in image or video analysis. However, it is still difficult to handle anomaly event detection in surveillance videos due to low amount of data and low computing power in edge devices. Therefore, it is necessary to develop more efficient techniques to solve these difficulties. Tailing is a situation in which a person’s behavior is monitored or followed secretly, and it is a precursor to criminal activities such as assault or kidnapping. However, it is difficult to detect tailings in videos accurately due to the same reasons in anomaly detection problem. In this thesis, prior to detecting tailings, we performed anomaly detection by using video classification models for the violent situational detection, one of the representative anomaly situations. In order to make it possible to analyze pedestrians' movement paths universally without being limited to a specific environment, we preposed a pedestrians’ trajectory representation scheme. The spatial and temporal information of pedestrians can be expressed by removing the background and converting it into image formats. Since tailing datasets do not exist, we constructed a tailing dataset using cameras of similar viewpoints with regular CCTV environment. We also used the Open world video game named GTA5 for the trajectory generation. However, constructing a large dataset is practically expensive. Therefore, we used Video Vision Transformer initialized by Vision Transformer to ensure sufficiently high performance with even a small dataset. For the purpose of deploying the model in edge devices, an experiment to reduce model size was also conducted using Knowledge Distillation techniques.
more

