유사도 측정기반의 동영상 데이터 표현을 이용한 퍼스널 미디어 이벤트 분류 시스템
A Personal Media Event Classification System Using Similarity Measure Based Video Data Representation
- 주제(키워드) 멀티 모달 학습 , 딥 러닝 , 동영상 분류 , 표현 학습 , 유사도 측정 , 멀티미디어 이벤트 감지 , 콘볼루션 뉴럴 네트워크
- 발행기관 서강대학교 일반대학원
- 지도교수 양지훈
- 발행년도 2017
- 학위수여년월 2017. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000061108
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
근래에 들어 데이터로부터 추상적인 표현을 학습할 수 있는 여러 깊은 신경망 구조들이 제안되었다. 최근에는 동영상과 같이 정보량이 큰 데이터를 생산할 수 있는 기기들이 널리 보급됨에 따라, 이와 같은 데이터를 효과적으로 표현할 수 있도록 하 는 학습 알고리즘의 필요성이 대두되었다. 하지만, 동영상과 같은 데이터는 시간에 따른 정보는 물론이고, 많은 정보량과 함께 잡음도 포함하고 있기 때문에 이에 대한 효과적이면서 간단한 표현을 학습하는 것은 쉽지 않다. 본 연구에서는 이와 같은 동영상 데이터를 추상적이면서 보다 간단하게 표현할수 있는 학습 방법인 ‘유사도 측정기반의 동영상 데이터 표현 방법’을 제안하고 성능을 평가하고자 한다. 특히, 동영상 데이터는 그림과 음성 두 개의 모달리티를 가지므 로, 멀티 모달 학습 방법의 일종인 판별 상관관계 분석법을 학습된 표현에 적용하여멀티 모달 관점에서도 제안한 방법의 성능을 평가하고자 한다. 본 연구에서 제안한 학습 방법은 YLI-MED 데이터 집합 및 자체적으로 수집한 Youtube 데이터 집합을 대상으로 하여 실험을 진행하였다. 그 결과, GRU unit을 사용한 LSTM 신경망 구조나 평균 풀링, 투표식 방법 등과 같이 동영상을 분류하기 위 해 사용되는 다른 방법들보다도 높은 성능을 얻을 수 있었다.
more

