검색 상세

Phase Congruency Map-guided Super Resolution via Frequency Domain Analysis

  • 발행기관 서강대학교 일반대학원
  • 지도교수 강석주
  • 발행년도 2021
  • 학위수여년월 2021. 2
  • 학위명 석사
  • 학과 및 전공 일반대학원 전자공학과
  • UCI I804:11029-000000065815
  • 본문언어 영어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.

초록/요약

Recently, many studies have proposed the use of a generative adversarial network (GAN) to generate photo-realistic images in the single image super resolution (SISR) task. However, in a low resolution (LR) image, since most of the existing high-frequency components in a high resolution (HR) image disappear and low-frequency components remain, generating SR image without analyzing the frequency characteristics of the image can result in undesirable distortions. In this paper, we propose a novel approach to alleviate this problem by analyzing the characteristics of a given image based on the frequency components of each region. Furthermore, the dataset used for SR network is normally LR-HR pair images generated by an ideal downsampling filters. However, since most images used in real-world are not generated through ideal filters, problems arise that SR network do not correspond to images with artifacts. Therefore, we propose a network that adaptively changes the training methods depending on the frequency components and also suitable for the real-world images, by analyzing the characteristics of the training dataset. In performance evaluation, the proposed method outperforms other SISR methods in terms of both qualitative and quantitative results. In quantitative results using popular metrics such as PSNR, SSIM and a perceptual metric—LPIPS, the proposed method shows comparable PSNR and SSIM values, while improving the perceptual SR performance as verified by LPIPS.

more

초록/요약

최근 들어, 초해상화 (Single Image Super Resolution, SISR)을 수행할 때 좀 더 실제적인 영상을 복원하기 위해 generative adversarial network (GAN)을 사용하는 연구들이 많이 제안되고 있다. 그러나 해당 기법들은 영상 복원 시 기존의 정답 영상과는 다른 구조적 왜곡과 불필요한 열화를 동반하기 때문에 영상의 화질이 저하되는 문제가 발생한다. 해당 논문에서는 이러한 문제를 해결하기 위해 영상 내의 주파수 성분을 분석해 이를 통해 영역에 따라 학습 방법을 달리하여 좀 더 인지적으로 우수한 영상을 복원할 수 있는 방법을 제안한다. 또한 대부분의 SR 네트워크 학습에 사용되는 데이터셋은 이상적인 Down-sampling 필터를 통해 생성된 저해상도-고해상도 영상이다. 그러나 실생활에서 사용되는 대부분의 영상들은 이상적인 필터를 통해 생성되는 영상이 아니기때문에 임의의 왜곡 혹은 열화가 적용된 영상에는 대응하지 못하는 문제가 발생한다. 따라서 우리는 주파수 영역에 따라 학습 방법을 달리하고 또한 학습 데이터셋의 특성을 반영하여 실제 영상에 대해서도 대응 가능한 네트워크를 제안한다. 이후 실험적 결과를 확인하기 위해 복원된 영상을 기존의 GAN 기반의 SR 네트워크와 비교하였다. 이를 통해 우리는 영상의 특성을 고려하지 않은 기존의 방법에 비해 인지적으로 더 선명한 영상을 복원한 것을 확인할 수 있고 PSNR, SSIM 과 더불어 영상의 인지적 평가 metric 인 LPIPS를 통해서도 제안한 방법의 우수한 성능을 확인할 수 있다.

more