검색 상세

사실적인 얼굴 영상 생성을 위한 딥러닝 연구

Deep Learning Approach for Generating Photorealistic Facial Images

초록/요약

본 연구는 딥러닝을 활용한 스케치 입력 기반 고해상도의 사실적 얼굴 생성 방법에 대해 기술한다. 스케치로부터 사실적 얼굴을 생성하는 연구는 디지털 포렌식의 일종인 몽타주와 연관된 분야로 오랫동안 연구되어 왔다. 프로그램을 활용한 몽타주 작성은 일반인도 간단한 교육을 통해 쉽게 작성할 수 있다는 장점이 있다. 그러나 몽타주 작성 시 목격자의 진술에 따라 미리 구축된DB로부터 유사한 영상을 찾는 과정에서 많은 시간이 소요된다. 또한 목격자와 작성자간에 소통의 한계로 서로 회상하는 영상이 상이하게 될 여지가 높다. 이에 본 연구에서는 딥러닝의 영상 생성 기법인 Generative Adversarial Network(GAN)을 기반으로 간단한 선 얼굴 스케치로부터 고해상도의 사실적인 얼굴을 작성하는 기법을 제안한다. 또한 몇 가지 얼굴 속성 정의를 통해 스케치뿐만 아니라 직관적 속성값으로 얼굴 생성을 제어할 수 있도록 한다. 이를 위해 기존 GAN의 신경망을 변경하고 확장하였으며, 생성과 고해상도화로 신경망의 역할을 분리하여 2단계 신경망을 구성하였다. 마지막으로 기존의 몽타주 프로그램과 스케치 기반 자동 얼굴 생성 기법과의 비교 및 Peak Signal to Noise Ratio (PSNR) 분석을 통해 사실적 얼굴 생성 및 고품질 영상을 생성함을 입증한다.

more

초록/요약

This study represents a method to generate photorealistic facial images based on the input of a line drawing image using deep learning. Researches on generating realistic facial images with line drawings have been surveyed for a long time in various areas, especially in the field of montage, a branch of digital forensic. The advantage of synthesizing montage using software is that common people can easily generate facial images with a short training. However, it takes a quite long time to search similar facial images from pre-built database when creating montage in keeping with witnesses’ statements. And besides, there is a high probability of discrepancy in recalled and shaped images due to the miscommunication between a witness and a creator generating a montage. Thus, in this study, we propose a method generating a photorealistic facial image in high resolution from a simple line drawing of a face based on Generative Adversarial Network (GAN), a method of image generation using deep learning. In addition to providing a hand drawing as an input, by providing intuitive facial attribute values as an input, the method can control generating a facial image. So, we have turned and expanded GAN network, and then designed two step networks by separating the network’s capacity into generative and high resolution networks. We compare images generated by our proposed method and montage software currently used in digital forensic to prove the performance of the suggested method, and analyze Peak Signal to Noise Ratio (PSNR) of the generated images to prove the image quality

more