중심-대칭 띠 모양의 시그니처를 이용한 근-복사 동영상 검출 방법
A Near-Duplicate Video Detection Method using Center-Symmetric Band Shaped Signature
- 주제(키워드) 도움말 근-복사 동영상 검출 , 시그니처 , Bag-of-Words
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2014
- 학위수여년월 2014. 8
- 학위명 박사
- 학과 및 전공 도움말 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000054028
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약 도움말
본 논문에서는 근-복사 동영상(Near-duplicate Video Clips) 검출의 실시간성이 요구되는 경우를 고려하여, 짧은 질의를 통한 검출을 통해 동영상의 디코딩 비용과 시그니처 추출 비용을 낮추는 방법을 제안한다. 질의 동영상의 길이가 짧기 위해서는 질의 정보를 최대한 활용할 수 있는 시퀀스 기반의 방법이 적합하다. 그러나 시퀀스 기반 방법은 전역 시그니처를 사용하므로 공간적 변환에 민감하다는 약점이 있으며, 프레임 수준에서의 비교는 검색 공간이 매우 방대해진다는 문제의 해결을 요구한다. 이를 위하여 기존의 전역 시그니처의 방법을 확장하여 공간적 변환의 특성을 고려한 중심-대칭 밴드 시그니처(Center-Symmetric Band Signature, CSBS)를 제안한다. 제안한 시그니처는 MPEG-7[3] 과 OSID[16]의 차이 값 사용과 순서 영상 변환 방법을 채택하여 이미지 변환에 강건하고, 중심-대칭인 밴드 형태의 영역 분할을 통해 회전, 대칭과 같은 공간적 변환에 강건하며, 밴드 형태의 분할이 지역적인 변화를 분산시키는 효과로 인하여 로고삽입과 같은 부분적 변환에 대한 강건성을 개선하였다. 프레임 수준에서의 비교에 대한 검색 공간 감소를 위하여, 기존의 이미지 검색에서 주로 사용되는 Bag-of-Words(BOW) 방법을 동영상에 확장하는 접근 방법을 선택하였다. BOW 프레임워크에 기반하여, 동영상은 시간 축 상에서 세그먼트로 분할되고, 세그먼트는 프레임 시그니처의 집합으로 추상화된다. 또한 양자화 에러로 인한 문제를 해결하기 위하여 m-근접 매핑 방식과 이진 시그니처를 이용한 매핑 방식을 적용하였다. 본 논문에서 제안한 방법들에 대하여 다양한 장르로 구성된 1,000시간의 비디오 세트를 이용하여 여러 실험을 수행하였다. 실험에 의하면, CSBS는 기존의 다른 전역 시그니처들에 비하여 다양한 공간적 변환에 대하여 강건하였다. 또한 m-근접 매핑 방법은 95.2% 정확도와 99.89%의 필터링 효과를 나타냈으며, 이진 시그니처 매핑 방법은 96.1%의 정확도와 99.92%의 필터링 효과를 나타내었다. 제안한 방법은 5초 길이의 질의 동영상에 대하여, 근-복사 비디오 검출에 대한 국제표준인 MPEG-7과 비교하여 공간적 변환에 대해서 3%~4% 정도 높은 정확도를 나타내었다.
more초록/요약 도움말
In this thesis, a near-duplicate video clip detection method using a short query is proposed in consideration of real-time environment for reducing decoding or signature extraction cost. In order to shorten the length of a query clip, sequence-based method should be employed to maximize query information. But the majority of sequence-based method exploit global signature that often exhibit weakness against spatial transforms and require handling of large search space due to frame-level match operation. For above problems, we propose both a Center-Symmetric Band Signature (CSBS) and a Bag-of-Words (BOW) based segment filtering method. CSBS is extended from existed global signatures such as MPEG-7[3] so that it is invariant to pixel-value transforms using difference value or ordinal value. And it is invariant to spatial transforms using center-symmetric band shaped partitioning. The proposed partitioning method is also effective in that local modification such as logo insertion is distributed by each band regions. BOW-based segment filtering is that a video is segmented with fixed length and each segment is represented as a set of frame signatures. Vector quantization error, which is intrinsic problem of BOW, both m-nearest mapping and binary-mapping methods are applied. To evaluate the performance of the proposed methods, an original video set of 1,000-hour-long videos of diverse genres was used. Our experiments confirmed that accuracy of CSBS was improved to robustness in spatial transform. We observed that m-nearest neighbor mapping method could filter 99.89% of the reference segments out with accuracy of 95.2% and the mapping with binary signature method could filter 99.92% of the reference segments out with accuracy of 96.1%. Furthermore, the proposed methods were compared with MPEG-7 video identification system [3], which is an international standard. Our method is superior for spatial transforms such as black-margin insertion or cropping with high accuracy of 3%~4%, especially for rotation and mirroring which are not supported by MPEG-7 we confirmed accuracy is higher than 99.9%.
more

