검색 상세

방송 동영상 콘텐츠에서 씬 단위 장소 인식을 위한 프레임 단위 분석 결과 융합 방법

A Fusion Method of Frame Analysis Results for Scene Recognition in Broadcasting Video Contents

초록/요약

최근 멀티미디어의 기술이 발달함에 따라 영상이나 이미지와 같은 미디어의 자원이 폭발적으로 증가하고 있다. 이에 따라 미디어의 자원과 딥러닝과 같은 알고리즘을 사용한 장소를 인식하는 많은 연구들이 진행되어 오고 있다. 그러나, 기존의 만들어진 데이터들은 프레임이나 샷 단위의 데이터이기 때문에 프레임 단위의 장소 인식이나 샷 단위의 장소 인식 연구가 주로 이루어져왔다. 그리고 장소 인식 연구를 하는데 있어서 장소에 대한 정보보다 사람의 비중이 높은 방송 동영상 콘텐츠를 이용한 연구는 다뤄지지 않았고, 프레임과 샷 단위가 아닌 씬 단위의 장소를 인식하는 연구는 진행되어지지 않은 상황이다. 본 논문에서는 방송 동영상 콘텐츠에서 프레임 단위의 객체와 장소에 대한 분석 결과에 대해 융합 및 결합 방법을 사용하여 씬 단위 장소를 인식 할 수 있는 방법을 제안한다. 씬 단위의 장소를 인식하기 위해 방송 동영상 콘텐츠에 대해서 프레임 별로 오인식 프레임 필터링 방법을 적용하고, 남은 프레임에 대해 객체와 장소의 분석 결과를 추출하여 융합 후 결합하는 방법과 결합 후 융합하는 방법을 사용한다. 성능 검증을 위하여 방송 동영상 컨텐츠 영화 11편, 드라마 24편, 예능 5편을 수집하고 수집한 컨텐츠에 대해 씬 단위로 수동으로 분류하여 총 2,394개의 씬 데이터를 생성하였다. 생성된 씬 데이터에 대해 씬 단위 장소를 인식한 성능은 결합 후 융합하는 방법을 사용하였을 경우 높은 성능이 나오는 것을 보여주었고, 영화에 대한 씬 단위 장소 인식은 Top-1에 대해 38%, 드라마와 예능은 각각 25%와 26%의 성능을 보여준다.

more