검색 상세

유사도 측정기반의 동영상 데이터 표현을 이용한 퍼스널 미디어 이벤트 분류 시스템

A Personal Media Event Classification System Using Similarity Measure Based Video Data Representation

초록/요약

근래에 들어 데이터로부터 추상적인 표현을 학습할 수 있는 여러 깊은 신경망 구조들이 제안되었다. 최근에는 동영상과 같이 정보량이 큰 데이터를 생산할 수 있는 기기들이 널리 보급됨에 따라, 이와 같은 데이터를 효과적으로 표현할 수 있도록 하 는 학습 알고리즘의 필요성이 대두되었다. 하지만, 동영상과 같은 데이터는 시간에 따른 정보는 물론이고, 많은 정보량과 함께 잡음도 포함하고 있기 때문에 이에 대한 효과적이면서 간단한 표현을 학습하는 것은 쉽지 않다. 본 연구에서는 이와 같은 동영상 데이터를 추상적이면서 보다 간단하게 표현할수 있는 학습 방법인 ‘유사도 측정기반의 동영상 데이터 표현 방법’을 제안하고 성능을 평가하고자 한다. 특히, 동영상 데이터는 그림과 음성 두 개의 모달리티를 가지므 로, 멀티 모달 학습 방법의 일종인 판별 상관관계 분석법을 학습된 표현에 적용하여멀티 모달 관점에서도 제안한 방법의 성능을 평가하고자 한다. 본 연구에서 제안한 학습 방법은 YLI-MED 데이터 집합 및 자체적으로 수집한 Youtube 데이터 집합을 대상으로 하여 실험을 진행하였다. 그 결과, GRU unit을 사용한 LSTM 신경망 구조나 평균 풀링, 투표식 방법 등과 같이 동영상을 분류하기 위 해 사용되는 다른 방법들보다도 높은 성능을 얻을 수 있었다.

more