CCTV 영상 기반 폭력 및 무기 탐지 딥러닝 모델
Development of the CCTV Video Based Violence and Weapon Detection Deep Learning Model
- 발행기관 서강대학교 정보통신대학원
- 지도교수 박운상
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000078932
- UCI I804:11029-000000078932
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
현대 사회에서 폐쇄회로 텔레비전(Closed-circuit Television)은 공공의 보안과 안전을 유지하는 중요한 수단으로 자리 잡았다. 그러나 방대한 양의 영상 데이터를 효율적으로 관리하고 분석하는 것은 여전히 도전 과제다. 이를 해결하기 위한 방안으로 감시 비디오 분석(Surveillance Video Analysis)이 주목받고 있으며, 이는 CCTV 및 기타 감시 카메라 시스템에서 촬영된 영상을 분석하는 과정을 의미한다. 이 과정에서 컴퓨터 비전, 인공지능, 머신 러닝 기술을 활용한 자동화된 소프트웨어 시스템이 사용된다. 그러나 이러한 기술들은 보안과 안전을 향상하는데 중요한 요소임에도 불구하고, 그 복잡성 때문에 실시간 및 정밀 분석에는 많은 시간과 자원이 소요된다. 본 논문에서는 CCTV 영상 데이터를 활용하여 폭력 및 무기를 사용한 폭력 상황을 효과적으로 식별할 수 있는 모델을 제안한다. 기존 Kervolution 네트워크에서 제안된 Gaussian 및 Polynomial 커널보다 Cosine 커널을 적용한 결과, 폭력 상황을 분류하는 정확도가 Gaussian 커널 대비 약 9.7% 향상되었다. 또한, Self-Attention 의 추가 적용으로 모델의 성능이 Cosine 커널만 적용한 모델에서 약 2.5% 이상 추가 향상되었다. 이로써, 기존에 제안된 ResNet 모델과 Gaussian 커널의 Kervolution 네트워크를 결합한 모델 대비 약 12.2%이상 성능이 향상됨을 알 수 있었다. 더불어, 자원 사용률에 있어 Gaussian 커널을 적용한 모델은 A100 의 40G 메모리를 가진 GPU 를 약 85%이상 메모리를 점유하고, 학습 중 10% 이상의 사용률을 보였으나, Cosine 커널을 적용한 모델은 10%이하의 메모리 점유율과 학습 중 5% 미만의 사용률을 확인하였다. 이 연구는 기존 ResNet 모델과 Kervolution 을 조합한 모델에서 CCTV 영상 분류의 정확도를 향상시킬 수 있는 커널과 Self-Attention 네트워크 적용을 제안함으로써, 폭력 상황과 무기를 사용한 폭력 상황을 더 빠르게 감지하고 적은 자원으로도 높은 정확도를 달성할 수 있음을 보여준다.
more초록 (요약문)
In modern society, Closed-circuit Television (CCTV) has become an essential means of maintaining public security and safety. However, managing and analyzing the vast amounts of video data efficiently remains a significant challenge. Surveillance Video Analysis, which involves analyzing footage captured by CCTV and other surveillance camera systems, has garnered attention as a solution to this issue. This process utilizes automated software systems powered by computer vision, artificial intelligence, and machine learning technologies. Despite their importance in enhancing security and safety, these technologies require considerable time and resources due to their complexity, especially for real-time and precise analysis. This paper proposes a technique to effectively identify violence and weapon-related violent situations using CCTV video data. By applying the Cosine kernel instead of the Gaussian and Polynomial kernels suggested in the existing Kervolution network, the accuracy in classifying violent situations improved by approximately 9.7% compared to the Gaussian kernel. Furthermore, the additional application of Self-Attention enhanced the model's performance by over 2.5% compared to the model that only applied the Cosine kernel. Consequently, the performance improved by approximately 12.2% compared to the model combining the ResNet and the Kervolution network with the Gaussian kernel. Moreover, in terms of resource utilization, the model with the Gaussian kernel occupied more than 85% of the 40G memory of an A100 GPU and showed over 10% utilization during training. In contrast, the model with the Cosine kernel occupied less than 10% of memory and showed less than 5% utilization during training. This study demonstrates that by applying the Cosine kernel and Self-Attention network to the model combining ResNet and Kervolution, the accuracy in classifying CCTV footage can be significantly improved. This allows for faster detection of violent situations and weapon-related violent situations with higher accuracy while using fewer resources.
more목차
제 1 장 서론 1
제 1 절 연구의 배경 및 필요성 1
제 2 절 연구 목적 2
제 3 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 CCTV 영상 분석 연구 동향 4
제 3 장 연구 방법 7
제 1 절 CCTV 비디오 영상 전처리 7
제 2 절 무기 및 폭력 탐지 전체 모델 10
제 3 절 KERVOLUTION 네트워크 12
제 4 절 SELF-ATTENTION 네트워크 17
제 4 장 연구 실험 및 결과 21
제 1 절 데이터 수집 21
제 2 절 KERVOLUTION 네트워크의 실험 결과 23
제 3 절 SELF-ATTENTION을 결합한 모델의 실험 결과 30
제 5 장 결론 34
참고 문헌 36