검색 상세

다중 시점 GNN을 이용한 효율적인 영상 요약 모델 개발

MH-GNN : Multi-Head GNN for efficient Video Summarization

초록 (요약문)

모바일 기기의 발달로 인해 대부분의 사람들이 손쉽게 인터넷에 접근할 수 있게 되었고, 이에 따라 온라인 스트리밍 서비스, 영상 공유 서비스 등을 통해 다양한 영상을 모바일 기기를 통해 시청하고 있다. 해당 서비스에서 영상이 수십 수만 개 이상의 영상이 쏟아지게 되면서 모든 영상 원본을 저장하기에는 매우 많은 용량이 필요하게 된다. 또한 최근에는 사람들이 원본 영상을 시청하기보다는 지루한 부분을 빼고 주요 장면만을 시청하기를 원하고 있다. 이에 많은 스트리밍 서비스와 영상 제공 서비스 공급자는 전체 영상이 아닌 중요 장면만을 저장하고자 하며, 시청자들에게는 요약된 영상을 제공하고자 한다. 하지만 편집하는 데에는 편집자, 편집을 하는 데 들어가는 시간 및 리소스를 필요로 한다. 이러한 문제점을 해결하기 위해 최근 자동 비디오 요약 태스크에 대한 중요성이 높아지고 있다. 딥러닝 방식을 이용한 자동 비디오 요약 태스크에 대해 다양한 연구가 진행되고 있다. 하지만 기존 논문들은 단순히 분야 초기에 정해진 피처 추출 모델을 사용하고 있고 해당 피처가 충분한 정보를 가지고 있는 지에 대한 분석이 없다. 또한 편향될 수 있는 영상 요약 태스크의 평가 방식을 사용하여 측정을 하고 있다. 최근 선행연구들은 Transformer 모델[14]을 기반으로 연구가 진행되고 있다. Transformer 모델은 여러 분야에서 좋은 성능을 보이고 있지만 영상 요약 데이터셋의 데이터 개수가 적고 영상 데이터의 길이가 다른 태스크에 비해 긴 편으로 긴 영상에 대해 Transformer를 적용하기에는 어렵다. 이에 본 논문은 기존 영상 요약 태스크에 존재하는 문제점들에 조금 더 적합한 그래프 신경망 기반의 모델을 제안하고자 한다. 일반적으로 사용되는 피처 추출 모델이 아닌 다른 여러 모델에 대해 분석 및 적용해보았으며 시각적 피처 뿐만 아니라 행동 인지 모델, 영상 제목 피처를 추가해보았다. 또한 적은 데이터 셋과 피처 노이즈에 강한 그래프 신경망을 설계하였다. 평가 결과 기존 다른 논문들보다 좋은 성능을 보였다.

more

초록 (요약문)

With the advancement of mobile devices, most people now have easy access to the internet, allowing them to watch various videos through online streaming services and video sharing platforms. As the number of videos continues to increase, storing the original versions of all these videos requires a significant amount of storage space. Additionally, recent trends show that people prefer watching only the essential parts of videos rather than the entire content. In response to this, many streaming services and video providers aim to store and offer the important scenes, proving viewers with summarized versions. However, editing videos requires editors, time, and the other costs. To address these challenges, the importance of automatic video summarization tasks has increased. Various research studies are being conducted on deep learning-based video summarization tasks. However, existing papers often utilize predefined feature extraction models without analyzing whether these features contain sufficient information. they employ evaluation methods that can introduce biases when measuring the performance of video summarization. Recent studies have been leveraging Transformer models as the basis for research in this area. Transformers have demonstrated excellent performance in various fields. However, applying Transformers to long videos, which are prevalent in video summarization datasets, is challenging due to the limited dataset size and the differing lengths of video. To address these issues, this paper proposes a graph neural network-based model that is more suitable for the existing problems in video summarization tasks. Instead of using commonly used feature extraction models, the paper analyzes and applies various models, and uses visual feature, action recognition feature, and video title feature. Furthermore, a graph neural network is designed to handle small datasets and feature noise effectively. The evaluation results demonstrate that the proposed model outperforms existing papers in terms of performance.

more