검색 상세

RGB-D 비디오 스트림에 대한 실시간 가상 뷰 합성 시스템의 성능 향상 연구

Research on Performance Enhancement of Real-time Virtual View Synthesis System for RGB-D Video Streams

초록 (요약문)

최근 깊이 카메라의 하드웨어적 발전과 소프트웨어적 발전이 이루어짐에 따라 여러 개의 깊이 카메라를 참조하여 임의의 가상 시점을 합성하는 깊이 이미지 기반 렌더링\,(Depth Image-Based Rendering, 이하 DIBR)은 중요한 연구 중 하나로 대두되고 있다. 특히, 다중 시점 RGB-D 영상 스트림과 상호작용을 통해 새로운 몰입감을 생성 할 수 있는 VR\,(Virtual Reality) 분야에서 그 중요성이 더 부각되고 있다. 다중 시점 영상을 토대로 한 가상 시점 생성 관련 주제는 매우 다양하지만 본 논문에서는 다음과 같은 조건을 특정하여 다룬다. 일정 간격의 시간 프레임 마다 생성되는 다중 RGB-D 참조 카메라의 동기화된 영상 스트림에 대하여 가상 시점의 스테레오 이미지를 실시간으로 합성한다. 여기서 주어진 개수의 참조 카메라를 가정하며, 가상 시점은 자유롭게 움직이는 HMD\,(Head Mounted Display)의 양안 카메라의 시점을 의미하고 결과로 합성된 이미지는 HMD에 송출된다. 송출된 이미지가 사용자 몰입감을 저해하지 않기 위해서는 높은 품질을 가져야 할 뿐만 아니라 어지러움을 줄이기 위해 고속으로 생성 되어야 한다. 이를 만족 시키기 위해 DIBR 어플리케이션은 최대한 신속하게 뷰를 생성할 뿐만 아니라 높은 이미지 품질 또한 보장하는 최적화된 알고리즘을 가져야하며 실시간 영상 스트림에 대해 어떠한 전처리도 하지 않을 것을 가정한다. 본 연구에서는 RGB-D 영상 스트림을 읽어들여 3차원 와핑\,(3D warping) 과정을 통해 가상 시점의 이미지를 실시간으로 생성하고 해당 이미지에 존재하는 홀\,(hole)을 인페인팅\,(in-painting) 과정을 통해 제거한 뒤, 최종 이미지를 합성하여 HMD에 송출하는 다중 RGB-D 영상 스트림에 대한 효과적인 실시간 가상의 뷰 합성 시스템에 필요한 세 가지의 요소를 제시한다. 첫째, 깊이 값의 오차로 인해 발생하는 품질 문제를 해결하기 위해 두개의 단계를 가지는 그래픽스 파이프라인을 구성하여 각 참조 카메라의 영상를 깊이 값을 기반으로 혼합하여 품질 문제를 해결한다. 둘째, 고화질의 다중 RGB-D 영상 스트림을 변환하고 전송하는 작업과 그래픽스 파이프라인을 분리하여 비순차적 병행 처리를 유도하고 결과적으로 스트림 작업에 대한 성능 향상을 통해 프레임 타이밍에 맞춰 영상 스트림이 파이프라인에 전송 되게 한다. 셋째, 각 참조 영상에서 배경을 가린 전경에 의해 발생하는 홀 문제를 해결 하기 위하여 실시간 RGB-D 영상 스트림을 토대로 3차원 공간 자료구조\,(3D spatial data structure)를 생성하여 배경 데이터를 선별, 저장한다. 이를 토대로 전경에 의해 가려질 수 있는 배경\,(disocclusion area)를 렌더링하여 점진적인 홀의 크기 감소\,(hole reduction)을 유도한다. 홀 크기의 감소는 홀의 모든 픽셀에 대하여 색을 추론 한 뒤 채우는 인페인팅 과정의 속도를 가속 할 수 있고 추론하여 인위적으로 생성한 색이 아닌 실제 배경의 색을 사용함으로써 렌더링 화질을 제고한다. 본 논문에서 제안하는 세 가지 최적화 방법은 DIBR 알고리즘에서 사용자 몰입감을 저해하는 성능적 요소를 해소하는데 크게 기여할 수 있을 것으로 보인다.

more

초록 (요약문)

With the recent hardware and software advances of depth cameras, depth image-based rendering\,(DIBR), which synthesizes arbitrary virtual viewpoints with reference to multiple depth cameras, is considered one of the important studies. Especially, its importance is becoming more prominent in the VR\,(Virtual Reality) field, where new immersion can be experienced through interaction with multi-view RGB-D video streams. There are many conditions related to virtual view synthesis based on multi-view video, but this paper is limited to the following conditions. A stereo image of a virtual view is synthesized in real time for a synchronized video stream with reference to multiple RGB-D cameras generated every frame at a predetermined interval. Here, assuming a given number of referenced cameras, the virtual view indicates the view of a stereo camera of a freely moving head mounted display\,(HMD), and the synthesized image is submitted to the HMD. To ensure the submitted image to not disturb the user's immersion, it must be synthesized at high speed to reduce dizziness, not only having a high quality. To satisfy this, DIBR application should have an optimized algorithm that not only synthesizes views as fast as possible, but also ensures high image quality, and it is assumed that there will be no preprocessing of any real-time video streams. In this study, three elements for an effective real-time virtual view synthesis system are presented. The word, real-time virtual view synthesis system refers to a system in which a virtual view image is generated in real time through a 3D warping process by reading a RGB-video stream, then having a process of removing a hole present in the virtual view image through an in-painting process, and at last submitting the synthesized final image to the HMD. First, in order to solve a quality problem caused by an error in a depth value, a graphics pipeline consisting of two stages is configured to mix images of each reference camera based on the depth value to solve the quality problem. Second, induce a non-sequential parallel process by separating the work of converting and transmitting high-quality multi RGB-D video streams and graphics pipeline, causing the video stream to be submitted to the pipeline in time for the frame timing through improving the performance of the stream operation. Third, to solve the hole problem caused by the foreground covering the background in each reference video, select background data from a real-time RGB-D video stream and store it in a 3D spatial data structure. Upon this, induce the gradual hole reduction through rendering the disocclusion area which could be covered by the foreground. The reduction in hole size can accelerate the speed of the in-painting process, which infers and fills colors for all pixels in the hole, and enhances rendering quality by using colors from the actual background rather than artificially generated colors. The three elements for an effective real-time virtual view synthesis system from this study are likely to contribute greatly to resolving performance factors that disturb user's immersion in the DIBR algorithm.

more