Attention 방법을 사용한 CNN 기반 방송 동영상의 씬 단위 장소 분류기
A CNN-based Place Classifier with Attention Method for Scene-level Place Recognition in Broadcasting Video
- 주제(키워드) 동영상 , 장소 인식 , 장소 분류 , 특징 융합 , 어텐션 , CNN , 딥러닝 , Video , Scene Recognition , Place Classification , Feature Fusion , Attention , CNN , Deep Learning
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2019
- 학위수여년월 2019. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000064399
- UCI I804:11029-000000064399
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
본 논문에서는 방송 동영상 내 씬 단위 장소 인식을 위한 어텐션 방법을 사용한 CNN 기반 분류 방법을 제안한다. 제안한 방법에서는 씬 내 프레임을 샘플링 할 때 장소 인식을 위한 이진 분류기를 사용하여 장소가 잘 나타난 프레임만을 골라 해당 프레임만을 일정 수만큼 샘플링 한다. 씬 단위 장소를 인식하기 위해 각 프레임 별로 이미지에 대한 CNN 기반 장소 분류기에서의 중간 결과로 나온 특징을 사용한다. 프레임 단위 특징에 대해 노이즈 여부를 판단하기 위하여 어텐션 방법을 사용한 특징 분석을 통해 그 영향력을 조정한다. 이렇게 강조를 진행한 프레임 단위 특징들에 대해 필요한 정보만을 남겨 씬 단위 특징을 만들기 위해 융합하는 방법을 사용하며, 이를 위해 풀링과 합성곱, 클러스터링 방법을 사용한다. 융합한 씬 단위 특징에 대해 전결합 방식의 분류기를 사용하여 장소를 인식한다. 본 논문에서 제안한 방법에 대해 학습 및 검증을 위해 이미지에 대한 데이터셋을 활용하였으며, 융합 및 분류에 대한 실제 성능 평가를 위해 영화 8편 및 드라마 10편의 실제 방송 동영상에서 2,464개 씬을 수집하여 사용한다. 그 결과, 본 논문에서 제안한 방법을 통해 씬 단위 장소 인식에 대해 평균 Top-1 기준 35%, Top-5 기준 67% 의 성능을 얻었다.
more초록/요약
This thesis proposes a CNN-based scene classifier with attention method for scene recognition in broadcast video. In the proposed method, only a fixed number of frames were sampled to be useful for scene recognition with a sampling method using binary classifier. The sampled frames were extracted feature using intermediate result of the classifier which learned by image dataset for place recognition. Its strength was adjusted through the analysis of features using the attention method to determine whether or not there was noise on frame. The features of the frames were fused to create a feature of the scene, the fusion method used pooling, convolution and clustering. Scene is recognized using fully-connected method classifier to use a feature of the scene. For scene recognition, use classifier the fused features. Use image-based dataset for training and validation the proposed methods. Take 2,464 scenes in 8 movies and 10 dramas from real video data for testing of performance fusion features and classifier. As a result, it is show that Top-1 35% and Top-5 67% accuracy about scene recognition.
more