검색 상세

비디오 세그먼트 단위 부분 복사 검출을 위한 CNN Local Feature 기반 프레임 특징 벡터 생성 및 융합 방법

Extracting and Fusion of CNN Local Feature-based Frame Feature Vector for Segment-Level Video Partial Copy Detection

초록/요약

인터넷 기술의 발전과 기하 급수적인 멀티미디어 컨텐츠 수요의 증가로 저작권 침해 문제와 불법 컨텐츠의 유통이 많이 일어나고 있다 [1, 2, 3]. 이러한 문제를 해결하기 위해 비디오의 내용에 기반한 고유 시그니처를 추출하는 방법에 대한 연구 [5]가 수행되었지만, 실제 복사 비디오에 대해서는 복사 검출에 실패하는 경우가 발생하였다. 이러한 내용 기반 비디오 복사 검출의 문제점을 해결하기 위해 본 논문에서는 CNN Local Feature를 사용하여 실제 사용되고 있는 다양한 변형에 강인한 세그먼트(Segment) 단위의 Fingerprint 생성 방법을 제안한다. 제안한 방법은 Convolution Feature Map으로부터 추출한 CNN Local Feature를 기반으로 Fingerprint를 생성하여, Bag-of-Local Features 기법 [28]을 사용한 2가지의 프레임 융합 방법으로 세그먼트 Fingerprint를 생성한다. 이때 CNN Local Feature의 사용을 통해 프레임의 지역적 특징을 이용하여 복사 검출을 수행한다. 본 논문의 실험은 비디오 부분복사 검출 데이터셋인 VCDB [21]와 자체적으로 10가지 변형을 적용한 모의 변형 데이터셋을 사용하여 진행했다. VCDB [21]를 사용한 실험의 경우, Triplet-loss 기반의 학습이 된 ResNet50 [25]을 사용했을 때 Bag-of-Local Features 기법을 사용한 Fingerprint 생성 방법에서 0.77의 F1-score를 보여 가장 높은 성능을 냈다. 모의 변형 데이터셋을 활용한 실험의 경우, 해상도 변경 및 Black Border 추가 변형에 취약함을 보였으며, 변형 횟수가 커질수록 검출 성능이 낮아지고, 성능 하락 폭이 증가함을 확인할 수 있었다.

more

초록/요약

Due to the development of Internet technology and the exponential increase in demand for multimedia contents, the problem of copyright infringement and the distribution of illegal contents are occurring a lot [1, 2, 3]. To solve this problem, a study [5] is conducted on a method of extracting a unique video signature based on the contents of a video, but there are cases in which the copy detection failed for the actual copied video. To solve the problem of content-based video copy detection, this thesis proposes a segment-level video fingerprint extraction method that is robust to various transformations that are used using CNN Local Feature. The proposed method extracts fingerprints based on CNN Local Feature extracted from the Convolution Feature Map and generates segment fingerprints using two frame fusion methods using the Bag-of-Local Features method [28]. This method uses the CNN Local Feature to perform copy detection using the local feature of the frame. The experiment in this thesis is conducted using VCDB [21], which is a video partial copy detection data set, and simulated transformed video dataset to which 10 transforms are applied. In the case of the experiment using VCDB [21], the F1-score is 0.77 when the ResNet50 [25] model trained based on triplet-loss by applying the fingerprint generation method using the Bag-of-Local Features method is used. In the case of the experiment using the simulated transformed video dataset, it is shown that it is vulnerable to the resolution change and additional transformation of the black border, and it is confirmed that the higher the number of transformations, the lower the detection performance and the greater the degree of performance degradation.

more