비디오에 내재된 이벤트 검출을 위한 프레임 레벨 CNN 특징 벡터 추출 및 융합 방법
Frame-Level CNN Feature Vector Extraction and Fusion Method for Detecting Events in Video
- 주제(키워드) 비디오 분류 , 멀티 모달리티 , 딥러닝 , 합성곱 신경망 , Video event classification , Multi modalities , Deep learning , Convolutional neural network
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2021
- 학위수여년월 2021. 2
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000065695
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
스마트폰의 보급과 인터넷 동영상 서비스의 발전으로 수많은 동영상 콘텐츠가 생성되고 있다. 이렇게 많은 동영상 콘텐츠를 활용하기 위해서는 동영상의 이벤트를 분류하고 메타데이터를 작성하는 작업이 필요하다. 이러한 문제를 해결하기 위해 컴퓨터 비전 연구자들은 비디오의 주요 이벤트를 자동으로 분류하기 위한 연구를 시도해왔다. 최근에 심층 학습(Deep Neural Network)를 이용한 다양한 접근 방법이 시도되어 컴퓨터 비전에서의 다양한 문제들의 성능이 향상되었다. 본 논문에서는 비디오 이벤트 분류 향상을 위하여 다양한 방법을 시도하고 실험하였다. 시각 정보 이외에 장소, 음식, 음성 등의 특징을 추출하여 추가 특징 정보를 추가하였고 특징 벡터들을 융합하고 추상화 하였다. 또한 다양한 길이의 비디오에 대응하기 위하여 비디오의 프레임 샘플링 방법을 제안하였다. 성능 검증을 위하여 LSVC 데이터 셋[6]을 이용하여 성능을 검증하여 각 방법의 적용에 따른 성능 변화를 확인하였다. 최종적으로 mAP 기준으로 0.784의 성능을 도출하였다.
more초록/요약
With the spread of smart phones and the development of Internet video services, numerous video contents have been created. In order to utilize so many video contents, it is necessary to classify the events of the video and create metadata. To solve this problem, computer vision researchers have attempted to automatically classify key events in video. Recently, various approaches using deep neural networks have been attempted to improve the performance of various problems in computer vision. In this thesis, various methods are tried and tested to improve the classification of video events. In addition to visual information, features such as place, food, and voice were extracted to add additional feature information, and feature vectors were fused and abstracted. In order to cope with videos of various lengths, a video frame sampling method is proposed. To verify the performance, the LSVC data set[6] was used to verify the performance, and the performance change according to the application of each method was confirmed. Finally, a performance of 0.784 was derived based on mAP.
more