검색 상세

멀티 모달의 상관관계를 활용한 딥러닝 구조의 비디오 분류 시스템

A Deep Learning Based Video Classification System Using Multi-modal Correlation

초록/요약

다양한 분야에 인공지능이 적용되어 효율적인 성과를 보임에 따라 기계학습 분야의 연구가 활발히 진행되고 있다. 특히 인공지능의 목표인 사람과 같은 인공지능을 만들고자 동영상과 같은 멀티미디어 데이터의 학습이 중요시되고 있다. 이에 본 논문에서는 동영상을 분류할 때, 동영상으로부터 인식 가능한 이미지와 오디오 두 개의 모달리티와 그들 간의 상관관계를 활용하여 학습하는 멀티모달 딥 러닝 구조의 동영상 이벤트 분류 시스템을 소개한다. 제안하는 시스템 구조는 동영상으로부터 추출된 다양한 모달리티를 하나의 동영상을 대표하는 특징 벡터로 변환하는 방법이다. 동영상으로부터 추출된 이미지는 CNNs기반의 AlexNet 또는 Inception-v3을 통해 특징 벡터를 추출하고 오디오는 MFCC를 통해 특징 벡터를 추출한다. 차원이 다른 두 특징 벡터의 통합을 위해 한 단계의 신경망을 거쳐 차원을 일치시키고 단위 벡터로 정규화를 진행한다. 마지막으로 정규화된 이미지와 오디오의 특징 벡터를 상관관계가 반영되게 통합하여 하나의 동영상을 대표하는 특징 벡터를 구하고 이를 동영상 분류에 사용한다. 본 논문에서는 YLI-MED 데이터와 YouTube에서 자체 수집한 데이터를 바탕으로 실험을 수행하여 단일 모달리티를 사용하는 것보다 멀티 모달리티의 성능이 향상됨을 확인한다. 또한, 제안하는 단위 벡터를 통한 정규화 및 멀티 모달리티의 상관관계를 활용한 비디오 분류 시스템의 성능 향상을 보인다.

more

초록/요약

Since artificial intelligence applied to various fields has demonstrated efficient performance, research in the field of machine learning has actively been carried out. Learning multimedia data, such as video, is especially important for creating humanlike artificial intelligence. Therefore, in this study, we propose a video event classification system with a multimodal deep learning structure that can learn the correlation between images and audio data extracted from video. The proposed system is a method to convert the various modalities extracted from video into a single feature vector representing the video. The image feature vector is extracted by convolutional neural networks (CNNs) based on AlexNet or Inception-v3, and the audio feature vector is extracted by mel-frequency cepstral coefficients (MFCCs). Using a single-layer neural network, the dimensions of two different feature vectors are matched and then normalized to a unit vector. Finally, we extract a single feature vector representing the video from correlation pooling that contains the normalized image and audio feature vectors and their correlation, and use this vector for video classification. We experimented our system with YLI-Multimedia Event Detection (MED) and self-collected YouTube data to verify that multimodal video event classification is more efficient than classification with a single modality. In addition, we showed that unit vector normalization and correlation pooling improved the performance of our video classification system.

more