검색 상세

근-복사 비디오 검출을 위한 픽셀 및 특징 도메인의 비디오 프레임 정보 융합 기반 비디오 세그먼트 단위 특징 벡터 생성 방법

Creating Video Segment-level Feature Vectors based on Fusion of Pixel and Feature Domains Video Frame Features for Near-Duplicated Video Detection

초록 (요약문)

최근 비대면 서비스가 증가하면서 여러 멀티미디어 플랫폼들이 발전하게 되었고 그에 따라 멀티미디어 컨텐츠들의 수요가 기하 급수적으로 증가하고 있다. 이러한 멀티미디어의 발전이 불법 컨텐츠 복제, 유포 및 저작권 침해와 같은 범죄의 발생 비율을 높이고 있다. 이러한 범죄 발생의 예방을 위한 여러 연구들이 진행되고 있는데, 실제 근-복사 비디오에 대해서 복사 검출에 실패하는 문제와 비디오 근-복사 검출 시스템의 메모리와 시간 비용에서 비효율적인 문제가 발생하였다. 본 논문에서는 기존 비디오 근-복사 검출의 문제점들을 해결하기 위해 비디오 세그먼트(Segment) 단위의 Fingerprint 추출을 위한 프레임 정보 융합 방법을 제안한다. 제안하는 방법은 픽셀 도메인에서의 비디오 프레임 정보 융합 방법과 특징 도메인에서의 비디오 프레임 정보 융합 방법을 제안한다. 또한, 픽셀 도메인과 특징 도메인의 비디오 프레임 정보를 결합하여 Coarse-to-Fine한 세그먼트 정보를 보존할 수 있는 세그먼트 Fingerprint를 생성하는 방법을 제안한다. 본 논문의 실험은 학습을 위해 SVD과 자기 지도 학습 방법을 도입하고, 모델은 Vision Transformer와 ResNet50을 사용하고, VCDB를 통해 제안한 방법들의 성능을 평가하고 분석한다. 실험 결과, 결합(Element SUM) 방법을 사용한 Vision Transformer 기반 세그먼트 Fingerprint가 0.61의 F1-score를 보였고, 기존 연구 대비 메모리 활용을 26.04배, 시간 비용을 1.26배 절약하였다.

more

초록 (요약문)

With the recent increase in non-face-to-face services, various multimedia platforms have developed, and accordingly, the demand for multimedia contents is increasing exponentially. The development of multimedia is increasing the incidence of crimes such as illegal content reproduction, distribution, and copyright infringement. Several studies are underway to prevent these crimes, resulting in problems of failing to detect copies of actual near-duplicated videos and inefficient problems in memory and time costs of near-duplicated video detection systems. In this paper, we propose a frame information fusion method for extracting Fingerprints in video segments to solve the problems of conventional near-duplicated video detection. The proposed method proposes a video frame information fusion method in a pixel domain and a video frame information fusion method in a feature domain. In addition, we propose a method of generating a segment Fingerprint that can preserve coarse-to-fine segment information by combining video frame information of a pixel domain and a feature domain. The experiment in this paper introduces SVD and self supervised learning methods for training, uses Vision Transformer and ResNet50, and evaluates and analyzes the performance of the proposed methods through VCDB. As a result of the experiment, Vision Transformer [4]-based segment Fingerprint using the Element SUM method showed an F1-score of 0.61, saving 26.04 times memory utilization and 1.26 times time costs compared to previous studies.

more