비디오 세그먼트 수준의 부분 복사 검출을 위한 CNN 기반 프레임 특징벡터 융합방법
A Fusion Method of CNN based Frame Feature Vector for Segment-level Video Partial Copy Detection
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2020
- 학위수여년월 2020. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000065116
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
최근 유튜브나 인스타그램과 같은 멀티미디어 컨텐츠 플랫폼을 주축으로 미디어에 대한 수요가 급속하게 증가하고 있으며 최근 조사 [1] 에 따르면 인터넷 트래픽의 80%는 비디오 컨텐츠가 될 것이라고 예측하고 있다. 이에 따라 멀티미디어 컨텐츠 제작자의 저작권 보호나 불법 컨텐츠의 유포와 같은 문제들이 발생하고 있다. 이러한 문제를 해결하기 위해 컨텐츠의 내용에 기반한 고유의 식별자를 추출하는 방법들이 제안되었지만 기존의 연구들은 미리 정해진(Simulated)된 변형에 대하여 고안되었기 때문에 실제 공유되고 있는 비디오에 대해서는 복사 검출에 실패하는 경우가 발생하였다.본 논문에서는 실제 사용되고 있는 다양한 변형에 강인한 Fingerprint의 추출을 위해 딥러닝(Deep Learning)기반의 고수준 특징을 융합한 세그먼트(Segment) 수준의 Fingerprint 추출방법을 제안한다. 프레임 정보에 대한 융합방법으로 TIRI [2]를 이용한 데이터 수준의 융합과 특징벡터에 대한 풀링(Pooling)을 이용한 특징벡터 수준의 융합을 제안하며 유튜브를 기반으로 수집한 비디오 부분 복사 검출 데이터셋인 VCDB [3]를 이용하여 제안한 방법들의 성능을 분석한다. 최종적으로 샘플링한 5장의 프레임의 특징벡터를 Max 풀링으로 융합하여 비디오 부분 복사 검출 문제에서 66%의 성능을 얻었다.
more초록/요약
Recently, demand for multimedia is rapidly increasing, with multi-media content platforms such as YouTube and Instagram. A survey predicts that 80 percent of Internet traffic will be video content. As a result, problems such as copyright protection for multimedia content producers and distribution of illegal content are occur-ring. To solve this problem, methods for extracting unique identi-fiers based on content have been proposed, but existing studies have been designed for simulated variations, leading to the fail-ure of detection for real video being shared. In this paper, we propose a segment-level fingerprint extraction method that fuses the high-level features of deep learning-based for extraction of fingerprint, which is robust on the various variations in actual use. As a method of fusion for frame information, it is proposed that data-level fusion using TIRI [2] and feature vector-level us-ing pooling. we analyzed the performance of proposed methods using VCDB, a data set of partial video copy detection collected based on YouTube. Finally, By fusing the feature vectors of 5 sampled frames with Max pooling, 66% performance was obtained from the video partial-copy detection problem.
more

