검색 상세

효율적인 주석 입력을 위한 의학 다큐멘터리 동영상의 샷 유형 정의 및 자동 검출 방법

Shot Type Definition and Automatic Detection Methods for Efficient Annotation in Medicine Documentary Video

초록/요약

객관적이고 사실적인 정보를 가진 다큐멘터리 방송 콘텐츠를 다양한 방법으로 재사용하기 위해서는 정보를 효과적으로 기록 및 분류 하는 것이 중요하다. 이를 위해 기존 주석 시스템에서는 해당 방송 콘텐츠에 대한 인덱스 및 주석 정보를 모두 입력하는 방식을 사용한다. 이런 주석자에 의한 수동적 방식은 오랜 시간을 소요하는 문제점과 주석자의 주관적인 주석 입력으로 객관성이 떨어진다는 문제점을 가지고 있다. 본 논문에서는 다큐멘터리 주석에 필요한 샷의 유형을 분류하고, 샷에 대한 정보를 자동으로 검출하여 기존 수동적인 주석 시스템의 문제점을 해결할 수 있는 샷 자동 검출 알고리즘을 설계 및 구현한다. 먼저, 샷의 특징 분석을 통하여 인터뷰 샷, 그래픽 샷, 인용 샷, MC 샷, 오프닝&클로징 샷 등의 샷 유형을 정의한다. 인터뷰 샷의 경우 출연자의 모습이 일정 영역에 고정되어 있고, 항상 화면 하단에 자막이 등장한다. 이러한 특징들을 활용하여 얼굴 검출과 자막 검출을 통해 인터뷰 샷을 자동으로 검출 한다. 전문가 인터뷰 샷의 경우 의사의 흰색 계열 가운을 특징으로 활용하여 옷의 영역을 검출하고, 색을 비교하여 전문가 인터뷰 샷을 검출한다. 그래픽 샷의 경우 컴퓨터 그래픽과 실제 이미지가 가지는 색의 수의 차이를 가지고, 각각의 이미지에 대한 히스토그램 값, 가우시안 분포의 표준편차를 활용하여 컴퓨터 그래픽 샷을 검출한다. 인용 샷의 경우 논문에서 강조하고 싶은 글귀를 하이라이트해서 보여주고, 배경은 흐리게 처리하는 특징을 활용하여 텍스트 영역과 나머지 영역에서의 윤곽선 검출의 차이를 비교하여 인용 샷을 검출한다. 위의 4가지 샷들에 대하여 성능을 측정한 결과 인터뷰 샷은 약 85%, 전문가 인터뷰 샷은 약 85%, 그래픽 샷은 약 80%, 논문 인용 샷은 약 95%의 정답률이 나오는 것을 확인할 수 있다. 본 논문에서 제안한 시스템을 바탕으로 주석자가 <생로병사의 비밀>을 비롯한 의학 다큐멘터리에 대해 주석 정보를 입력할 때 기존의 입력 방식보다 시간 비용을 줄이고, 객관적인 주석 입력이 가능할 것이라 기대한다.

more

초록/요약

Intensive indexing and annotation is essential for reusing documentary films in various applications. State-of-the-art indexing and annotation systems require indices and annotations be manually input. This has the disadvantage of lengthy input time, and inconsistency in choice of annotated time code and type of shots by annotators. In this thesis, we present an algorithm that identifies and classifies shots fit for annotation to address the issues in existing documentary film indexing and annotation systems. An implementation of the algorithm is also reported. We define shot types of interview, graphic illustration, quoted text, commentator scene, opening, and closing; our algorithm detects four of the more. In interview shots of non-specialists, the interviewee is generally fixed to a region and there always is subtitle in the lower parts on screen. Based on this observation, our algorithm detects face and subtitle to categorize a shot as an interviewing scene. Interview shots of specialists, especially medical doctors, are identified by checking whether their coats are white. Graphic illustrations are detected based on chroma histogram and standard deviation in Gaussian distribution. Quoted texts in documentary films are generally highlighted on blurred background. Our algorithm compares borderlines in the text region and the non-text region to declare a quoted text shot. Our implementation of the algorithm showed a detection accuracy of 85%, 85%, 80%, and 95% for interview of non-specialists, interview of specialists, graphic illustrations, and quoted texts. Using the proposed algorithm, time required for indexing and annotating medical documentary films could be significantly reduced.

more