Object Detection-based Video Retargeting with Spatio-Temporal Consistency
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2020
- 학위수여년월 2020. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- UCI I804:11029-000000065001
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
본 연구는 심층 인공신경망기반의 객체 검출 알고리즘을 사용한 비디오 리타겟팅 방법을 제안한다. 먼저, 객체 검출 알고리즘으로부터 바운딩 박스로 둘러싸인 입력 비디오의 의미있는 영역이 추출된다. 이 경우, 검출된 객체의 크기나 수를 고려하여 영역이 결정된다. 각 프레임 영상의 바운딩 박스들은 관심 영역(Regions of Interest, RoIs)으로 취급된다. 두 번째, 객체 검출 신경망의 높은 연산량을 저감하기 위해 Siamese 객체 추적 신경망이 사용된다. 비디오를 씬 단위로 나누는 것으로, 각 씬의 첫번째 프레임 영상에 대해 객체 검출 알고리즘이 수행된다. 다음 연속된 프레임 영상에 대해서는 객체 추적 알고리즘이 수행되고, 이는 씬이 바뀌었다고 판단될 때까지 계속된다. 세 번째, 목표하는 종횡비를 맞추기 위해서 수평 방향의 크기 조정이 수행되는데, 이를 위해 바운딩 박스를 수직 방향으로 투사하는 것으로 1차원 관심 영역을 얻는다. 이어서, 제안된 방법은 1차원 관심 영역으로부터 격자 지도를 새로 계산하여 원래 영상의 각 열들이 새롭게 위치할 좌표들을 계산한다. 마지막으로, 리타겟팅된 모든 프레임 영상들을 다시 정렬하여 재생하는 것으로 리타겟팅 비디오가 획득된다. 다양한 기존 방법들과 함께 비교 실험을 진행하였고, 평균 양방향 유사 점수(bidirectional similarity score)는 1.92를 기록했으며 이는 다른 방법들 보다 높은 수치였다. 제안한 방법은 기존 방법들에 비해 안정적이었고 인지적인 불편함을 일으키지 않아 시청자들을 만족시켰다.
more초록/요약
This study proposes a video retargeting method using deep neural network-based object detection. First, the meaningful regions of the input video denoted by bounding boxes of the object detection are extracted. In this case, the area is defined considering the size and number of bounding boxes for objects detected. The bounding boxes of each frame image are considered as regions of interest (RoIs). Second, the Siamese object tracking network is used to address high computational complexity of the object detection network. By dividing the video into scenes, object detection is performed for the first frame image of each scene to obtain the first bounding box. Object tracking is performed for the next sequential frame image until a scene change is detected. Third, the image is resized in the horizontal direction to alter the aspect ratio of the image and obtain the 1-D RoIs of the image by projecting bounding boxes in the vertical direction. Then, the proposed method computes the grid map from the 1-D RoIs to calculate new coordinates of each column data of the image. Finally, the retargeted video is obtained by rearranging all retargeted frame images. Comparative experiments conducted with various benchmark methods show an average bidirectional similarity score of 1.92, which is higher than other conventional methods. The proposed method was stable and satisfied viewers without causing cognitive discomfort as conventional methods.
more

