검색 상세

CCA을 이용한 멀티 모달 딥러닝 기반 동영상 이벤트 분류 시스템

Video Event Classification System Based on Multimodal Deep Learning Using CCA,

이은지 (서강대학교 일반대학원)

원문보기

초록/요약moremore
기계학습에서 주된 목적은 컴퓨터 또는 기계가 학습된 지식에 기반 하여 입력된 개체를 자동적으로 검출하거나 분류하는 것이다. 따라서 분류기 또는 감지기의 정확도를 월등히 개선한 연구 방법론들이 기계학습 역사의 주류를 구성해 왔다. 오늘날, 분류나 감지 문제에서 가장 높은 정확도를 보여준 “딥 러닝”이 기계학습 분야에서 최근 주 역사의 핵심 화두로 자리하고 있다. 여기서 딥 러닝은 인공 신경망 구조에 근간을 두고 발전한 복잡한 학습 모델들을 말한다. 이미지 데이터나 오디오 데이터와 달리, 비디오 데이터는 다양한 감각적 양상으로...
기계학습에서 주된 목적은 컴퓨터 또는 기계가 학습된 지식에 기반 하여 입력된 개체를 자동적으로 검출하거나 분류하는 것이다. 따라서 분류기 또는 감지기의 정확도를 월등히 개선한 연구 방법론들이 기계학습 역사의 주류를 구성해 왔다. 오늘날, 분류나 감지 문제에서 가장 높은 정확도를 보여준 “딥 러닝”이 기계학습 분야에서 최근 주 역사의 핵심 화두로 자리하고 있다. 여기서 딥 러닝은 인공 신경망 구조에 근간을 두고 발전한 복잡한 학습 모델들을 말한다. 이미지 데이터나 오디오 데이터와 달리, 비디오 데이터는 다양한 감각적 양상으로 구성된다. 비디오 데이터에서 이미지 양상과 오디오 양상은 각 속성 데이터의 분포가 다르기 때문에, 단순히 기존 딥 러닝 구조에서 비디오 데이터를 학습하고 분석하는 것은 효율적이지 않다. 본 연구는 사람이 어떤 목격된 개체를 판단할 때, 다양한 감각 양상을 동시에 사용한다는 점을 주목했다. 즉, 기계도 여러 양상이 담긴 데이터를 분석할 때에, 학습단계에서 각 양상 간의 상관관계가 고려되어야 한다는 것이다. 더 나아가, 비디오 데이터의 이미지 양상과 오디오 양상 간의 상관관계를 높이는 방향으로 학습이 된다면, 더 효과적일 것이다. 따라서 이 논문은 클래스 내 표준 상관관계를 이용한 멀티 모달 딥 러닝 시스템을 제안하게 되었다. 본 연구에서 제안한 시스템은 YLI-MED 데이터 셋을 이용해 실험하였고, 그 실험 결과는 다른 논문의 결과와 비교 분석되었다. 결과적으로 본 논문에서 제안한 방법이 기존의 분류 정확도를 높인 것을 실험을 통해 확인하였다.
초록/요약moremore
The major purpose of machine learning is to automatically detect or classify a digitalized instance based on the learned knowledge of the machine. Breakthroughs that significantly enhance the accuracy of the classifier, or detector, have been added to the mainstream of machine learning history. Th...
The major purpose of machine learning is to automatically detect or classify a digitalized instance based on the learned knowledge of the machine. Breakthroughs that significantly enhance the accuracy of the classifier, or detector, have been added to the mainstream of machine learning history. These days, “Deep Learning” is the main topic in the stream, as it has shown the highest accuracy in classification and detection. Deep learning implies complicated learning models based on artificial neural networks. Unlike image data or audio data, video is composed of multiple sensory modalities. It is not efficient to analyze video data in a unimodal deep learning system because image modality and audio modality in video have their own property distribution. This research starts from the intuition that humans simultaneously utilize multiple sensory modalities. That is, the correlation between the modalities in multimodal data should be considered in the learning steps. Furthermore, it will be much more effective if the given video data is learned to show higher correlation between image-modal and audio-modal data. Therefore, this paper suggests a multimodal deep learning system that utilizes canonical correlation analysis(CCA) within each class. In this work, a YLI-MED dataset is experimented with for the proposed system, and the experimental results are compared to those of other papers. As a result, it is verified that our system improved accuracy in classification.