검색 상세

미디어 모달리티 사이의 연관관계에 대한 DNN 학습을 이용한 퍼스널 비디오의 이벤트 분류 방법

A Personal Video Event Classification Method by DNN-Learning on Association between Media Modalities

초록/요약

최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르게 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오 데이터가 급증하고 있다. 이러한 퍼스널 비디오 데이터를 관리하기 위해서 퍼스널 비디오 이벤트를 자동으로 검출하는 방법이 요구되고 있지만, 기존의 퍼스널 비디오 검출 방법이 대부분 멀티 모달리티 중 이미지만을 이용하거나 비디오의 시간 정보를 고려하지 않는 경우가 많다. 그러나, 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 검출을 하는 데 있어 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고급 수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 DNN으로 학습하여 퍼스널 비디오 이벤트를 검출하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet[1]기반의 BN-GoogLeNet[2]과 Multi-Layer Perceptron (MLP)[3]을 이용하여 각각 고 수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간 순으로 다시 재 배열하여 비디오 한 편 당 하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오의 이벤트를 검출한다. 본 논문에서는 대표적인 퍼스널 비디오 데이터 셋인 UCF-101[4]을 대상으로 본 논문의 성능을 평가하기 위한 여러 실험을 수행하였다. 실험에 의하면, 본 논문에서 제안하는 방법은 검색 상위 1위 정확도(Hit@1) 53.9%와 검색 상위 5위 정확도(Hit@5) 70.4%를 기록하였으며 시간 정보를 포함하지 않으며 이미지만을 이용한 퍼스널 비디오 이벤트 검출 방법[2] Hit@1에 비하여 약 11% 향상된 결과를 얻을 수 있었다.

more

초록/요약

In recent years, the number of personal video has been rapidly increasing due to the spread of smart devices and network environment which enable to create and share video contents freely and conveniently. An automatic event detection is required to manage personal video contents while most previous personal video event detection method uses image-only among multi-modalities or ignorance of temporal information of video. However, thorough consideration on event detection is expected as video is consisted of multi-modalities and its data tends to continuously change with time. In this thesis, a new method for detecting personal video events is proposed which learns the association among modalities based on high-level data detected from multi-modalities and are chronologically rearranged afterward. This method extracts high-level data from videos using GoogLeNet[1] based BN-GoogLeNet[2] and Multi-Layer Perceptron (MLP)[3], and extracted data is synchronized chronologically. Rearranged data is regenerated as one new feature per video and personal video event is extracted according to these features, using DNN. Several experiments were conducted in order to evaluate the performance of proposed method for UCF-101[4] which is a representative personal video dataset. The result of the experiment suggests that the method indicates 53.9% top-1 accuracy (Hit@1) and 70.4% top-5 accuracy (Hit@5). Proposed personal video event detection shows approximately 11% improved Hit@1 accuracy when compared to the event detection method which only uses image modality and does not contain temporal information [2].

more