검색 상세

스포츠 동영상 분석 : 컴퓨터비젼 기반 축구 동영상 이해

A Study on Sports Video Analysis : Computer Vision Based Soccer Video Understanding

초록/요약

스포츠 동영상 분석은 컴퓨터비젼을 이용한 흥미로운 분야들 중의 하나로서, 아직까지 그리 많은 연구가 이루어지진 않았지만 최근에 점점 많은 관심을 받고 있다. 이러한 컴퓨터비젼 기반 스포츠 동영상 분석은, 적당한 조건의 실내에서 간단한 시나리오대로 움직이는 소수의 사람들을 움직임을 분석하는 것보다는 쉬운 일이지만, 지하철역과 같은 임의의 장소에서 다양하게 움직이는 군중의 양상을 분석하는 일보다는 어려운 작업일 것이다. 이러한 다소 용이함의 바탕에는, 우리가 어떤 스포츠 경기에 대해 사전지식이나 경험을 가지고 있어 해당 스포츠의 대표적인 경기장면이라든지 규칙을 머리 속에 떠올릴 수 있다는 친숙함이 있다. 본 논문에서는 축구의 예를 중심으로 스포츠 동영상을 자동으로 분석하는데 있어서 그러한 사전지식을 어떻게 활용할 수 있는가에 중점을 두고 있다. 분석에 필요한 단계로는 카메라 보정, 선수 위치 초기화, 선수와 공추적, 사건 인식을 통한 동영상 주석이 있으며, 응용으로서 방송용 동영상 자동 생성이 있을 수 있다. 먼저 카메라 보정을 위해 필요한 2D-3D 대응점을 자동으로 얻기 위해, 경기장의 선이나 선들의 교점들을 안정적으로 검출해주는 알고리듬을 제시하였다. 선수의 초기 위치를 자동으로 지정하기 위해, 구기 경기가 가지는 성질들, 즉 정해진 공간에서 정해진 종류의 정해진 인원수의 선수들이 존재한다는 점을 적극적으로 활용하였다. 이는 기존의 대부분의 물체추적에서 이뤄지는 사용자가 직접 지정하는 방식의 초기화가 아닌 스포츠 선수 위치의 자동 초기화를 위한 최초의 시도라고 할 수 있다. 선수 추적은 색상 기반 파티클 필터를 사용하며, 인접한 두 선수 사이에서의 파티클 전이를 외부적으로 억제하는 방식을 사용하였다. 공추적 또한 색상과 모양에 기반한 파티클 필터를 사용하였으며, 이를 위해 선수 추적 결과를 이용하여 전경이미지에서 선수 이미지 블롭을 제거함으로써 공만 존재하는 이미지를 만들고 누적하였다. 이 또한 축구 영상은 기본적으로 선수, 공 그리고 배경의 세가지 요소로 이루어져 있다는 특징을 이용한 것이다. 선수에 의해 공이 가려지는 정도에 따라 visible과 invisbile의 두 가지 공의 상태를 도입함으로써, 비교적 긴 동영상에 대해서도 안정적으로 공추적을 할 수 있다. 본 논문에서 공의 3차원 궤적은 연속된 포물선들로 모델링 되었으며, 공만 존재하는 다중 카메라 뷰들로 부터 가능한 모든 3차원 공의 후보 위치들을 만들고, 이들로부터 포물선들을 걸러내는 방식을 취하였다. 비디오 주석은 각 (in)visible 기간에 대해 최대사후확률을 가지는 사건을 인식함으로써 이루어지며, 본 논문에서는 축구경기에 대해 5가지의 사건을 정의하고 있다. 본 논문에서는 3차원 공추적 결과의 응용으로서, 방송용 동영상의 자동 생성을 제안한다. 다중 카메라 뷰(view)로 부터 하나의 방송 동영상을 생성하기 위해, 매 프레임의 뷰를 선택해야 하는데, 공의 가시성을 그 선택 기준으로 삼는다. 이는 곧 3차원 공추적과 카메라 보정으로부터 구해서는 공의 투영 면적이 최대인 뷰를 선택하는 것이며, 구기 종목의 경우 시청자에게 경기의 흐름을 최대한 잘 전달해야 하는 방송 본래의 역할을 충실히 수행할 수 있는 방법이라 할 수 있겠다. 실험 결과와 그에 대한 토론은 위에 열거한 스포츠 비디오 분석의 각 요소들에 대해 본 논문에서 제시하는 방법들이 매우 효율적임을 보여주고 있다.

more

초록/요약

As a special application of computer vision, automatic sports video analysis has been investigated by some researchers. This sports video analysis via computer vision is a moderately challenging problem: it is more difficult than analyzing a video where few people walk around in a laboratory according to a simple scenario and is easier than analyzing a video of crowded people at a subway station. This easiness is based on the predictability of sport scenes due to the rules and nature of each sport. Therefore the success of an analysis heavily depends on how much one can exploit the prior information on a sport at hand. This dissertation addresses the problems in the steps of automatic sports video analysis by exploiting such prior knowledge in soccer as the example domain. Those steps include camera calibration, player location initialization, player tracking, ball tracking, event recognition and broadcast video composition. For automatic camera calibration, we have developed a rigorous algorithm to detect landmarks of a pitch which provide 2D-3D correspondences automatically. A novel method for automatic player location initialization is suggested and it is, to the best of our knowledge, the first approach to target initialization %exploiting the fact that, for ball sports, there are a fixed number of people each of whom belongs to one of the fixed number of classes in a limited space. Player tracking uses color-based particle filters with external forces to avoid coalescence between trackers. Ball tracking also uses color and shape based particle filter. Especially ball tracking is done on the accumulation of ideally ball-only images obtained by removing regions of tracked players. This also can be considered as exploiting the characteristic that a typical soccer scene is ideally composed of players, the ball and the %background. By introducing two modes of ball status, namely visible and invisible, stable ball tracking is possible even for a long sequence. A 3D ball trajectory is estimated by constructing a sequence of parabolic curves from 2D ball-only images of multiple views, To annotate a soccer video, the event of maximum a posteriori among predefined several events is assigned to each (in)visible period. For automatic generation of broadcast video from multiple cameras, we use the area of a ball image and the frequency of view change as the criteria for selecting the view for each frame. Experimental results and discussions are also provided to evaluate the efficiency of the proposed methods.

more