GNN 기반 장면 분할을 이용한 효율적인 비디오 요약 모델 개발
GS-SUM: Efficient Video Summarization with GNN based Shot Segmentation
- 주제어 (키워드) 딥러닝 , 비디오 요약 , 그래프 신경망 , 장면 분할 알고리즘 , GS-SUM , 어텐션 , deep learning , video summarization , graph neural network , shot segmentation , GS-SUM , attention
- 발행기관 서강대학교 일반대학원
- 지도교수 이혁준
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000069862
- UCI I804:11029-000000069862
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
인터넷의 등장과 더불어 무선 네트워크가 빠르게 발달하며 모바일 소셜 네트워크 플랫폼과 온라인 스트리밍 사이트에서 다양한 비디오 콘텐츠가 공유되고 있다. 사용자들은 다양한 목적으로 비디오 콘텐츠를 활용하며 그 사용량은 점점 늘어가는 추세를 보인다. 하지만 사용자가 비디오에서 유의미한 정보를 얻기 위해서는 전체 영상을 시청해야 한다는 시간적인 문제가 존재하고, 영상 내에 불필요하거나 원하지 않은 정보가 포함되어 있을 수 있다. 이러한 문제점을 해결하기 위해 비디오 내에서 중요한 장면만 추출하는 비디오 요약 알고리즘의 필요성이 강조된다. 다양한 분야에서 활용되고 막강한 성능을 보이고 있는 딥러닝 기술의 발달로 인해 비디오 요약 알고리즘 또한 딥러닝 방식의 연구가 활발하게 이루어지고 있다. 기존 딥러닝 방식의 비디오 요약 방식은 다음과 같은 과정으로 수행된다. 먼저 비디오에 대한 정보를 담고 있는 피처를 입력 받아 비디오 프레임의 중요도를 딥러닝 모델을 통해 예측하는 과정과 비디오를 내용 단위로 분할하는 장면 분할 과정이 수행된다. 마지막으로 예측한 프레임 단위 점수를 장면 단위 점수로 집계하고 이 점수에 기반해 요약본을 생성한다. 기존 연구에서 비디오의 장면을 분할하는 과정에서 사용되는 KTS(Kernel Temporal Segmentation) 알고리즘은 시간 복잡도가 커서 수행시간이 오래 걸린다는 단점이 존재한다. 또한 기존 연구에서의 딥러닝 모델이 연산하는 프레임 단위 중요도 점수 예측결과는 비슷한 장면에서도 다른 점수를 예측하는 등 노이즈가 발생할 수 있다. 또한 장면 분할과 프레임 단위 예측 과정이 이원화되어 있기 때문에 장면 단위의 정보를 충분히 이끌어내지 못하고, 프레임 단위 연산은 비디오 길이가 길어질수록 연산량이 비례해서 증가해 효율적이지 못하다. 이를 해결하기 위해 본 논문에서는 GNN과 어텐션을 활용하여 end-to-end로 비디오 장면 분할과 장면 단위 중요도 점수를 예측을 수행하는 비디오 요약 모델 GS-SUM을 제안한다. GS-SUM은 입력한 비디오에 대해 GNN과 Graph Structure Learning을 활용하여 각 프레임들의 관계성을 학습해 정보를 이끌어냄과 동시에 장면 분할을 수행한다. 이후 장면 단위 피처를 생성해 기존 프레임 단위가 아닌 장면 단위 중요도 점수 예측을 통해 안정적인 예측 결과를 동반한다. SumMe와 TVSum 두 비디오 요약 데이터셋에 대해 GS-SUM을 학습해 실험한 결과 각각 57.5, 72.3의 F-Score와 0.249의 Spearman’s rho 결과로 기존 선행연구 대비 향상된 결과를 기록했다. 또한 GS-SUM에서 제안하는 GNN 기반 장면 분할 알고리즘은 기존 KTS 알고리즘보다 대폭 감소된 수행시간을 기록하고 더 정확한 장면 분할 결과를 보였다.
more초록 (요약문)
With the advent of the Internet, wireless networks are widely developed, and various video content is being shared through mobile social network platforms and online streaming sites. Users use video content for various purposes, and its usage is increasing. However, one challenging issue is that the user must watch the entire video in order to obtain meaningful information from the video, that may contain unnecessary or unwanted information. To address this, researchers developed various video summarization algorithms that extract only important contents within the video. Due to the development of deep learning technology, which is being used in various fields and showing strong performance, video summarization algorithms are also being actively studied in deep learning methods. Generally, Existing deep learning-based video summarization algorithms are performed following process. First, features containing information about the video are input. And then the model predicts a frame-level importance score, and shot segmentation that segmenting video frames into the shots of the video. Finally, the predicted frame-level scores are aggregated into shotlevel scores and a summary is generated based on these scores. The Kernel Temporal Segmentation(KTS) algorithm used in the shot segmentation in previous studies has disadvantage not scalable in terms of high time complexity. In addition, predicting frame-level importance scores may result noisy prediction such as predicting different scores for similar frames in same shot. To address this, in this paper, we propose GS-SUM, a video summarization algorithm that utilizes GNN to shot segmentation and predict shot-level importance scores by end-to-end. GS-SUM uses GNN and Graph Structure Learning to learn the relationship between each frame for derive video information and perform shot segmentation. Subsequently, shot-level features are generated, accompanied by stable prediction result through shot-level importance score prediction rather than conventional frame-level prediction. Experiments with GS-SUM on two video summarization datasets, SumMe and TVSum, show that GS-SUM records improved result compared to previous studies with F-Score of 57.5, 72.3 and Spearman’s rho of 0.249, respectively. In addition, proposed GNN-based shot segmentation algorithm significantly reduced execution time and shows more accurate shot segmentation results than KTS algorithms.
more