검색 상세

가이던스 정보를 사용한 경량 GAN 기반 이미지 인페인팅 시스템

Lightweight GAN-Based System with Guidance Information for Image Inpainting

초록 (요약문)

Image inpainting refers to the process of restoring missing or corrupted regions of an image in a manner that is both visually plausible and semantically consistent. It serves as a foundational technique in a wide range of applications, including digital photo restoration, object removal, augmented reality, and post-production in the film industry. Despite the remarkable performance of recent deep learning-based inpainting models, their excessive model complexity and computational demands pose significant challenges for practical deployment. This study addresses this limitation by proposing a lightweight image inpainting framework that maintains competitive performance while significantly reducing computational overhead. The proposed system is centered around the incorporation of guidance information, which alleviates the burden on the network to learn all relevant features solely through data. Specifically, guidance features such as edge maps, SIFT orientation maps, and Local Binary Pattern (LBP) descriptors, extracted via traditional computer vision techniques, are introduced into the model to provide explicit structural cues with low computational cost and high interpretability. The research progresses in two main stages. The initial phase focuses on facial image inpainting, wherein a Laplacian edge map derived from the unmasked regions is integrated into a U-Net-based generator, resulting in improved reconstruction quality. Building upon this, the second phase extends the approach to general image inpainting. To address the greater structural and textural complexity of general images, additional guidance maps including SIFT and LBP are employed alongside edge maps. Architecturally, the generator adopts a lightweight U-Net structure, augmented with Dilated Residual Blocks in the bottleneck layer to expand the receptive field without increasing parameter count. A PatchGAN discriminator is used consistently across both facial and general models to enforce local realism. This hybrid approach, combining traditional feature descriptors with deep generative models, successfully balances efficiency and performance. Experimental validation was conducted using benchmark datasets, including CelebA-HQ and FFHQ for facial images, and Paris Street View and Places2 for general images. Results demonstrate that the proposed method achieves substantial reductions in parameters and floating-point operations (FLOPs) compared to contemporary large-scale models, while delivering competitive performance in both visual fidelity and quantitative metrics. Crucially, the model achieves these results without relying on additional trainable guidance networks, thereby further reducing computational complexity. The proposed approach significantly enhances the practicality of image inpainting in resource-constrained environments such as mobile devices, edge computing, and real-time systems, aligning with broader trends in efficient artificial intelligence. This work thus contributes a scalable and deployable solution for high-quality image restoration under real-world constraints.

more

초록 (요약문)

이미지 인페인팅 (Image inpainting) 은 손상되거나 누락된 이미지 영역을 시각적, 의미론적으로 자연스럽게 복원하는 기술로, 디지털 사진 복원, 객체 제거, 증강현실, 영화 후반 작업 등 다양한 분야에서 핵심 역할을 하고 있다. 본 논문은 최근 고도화된 딥러닝 기반 인페인팅 기법들이 뛰어난 성능에도 불구하고, 지나치게 큰 모델 크기와 높은 연산 비용으로 인해 실제 응용 및 배포에 제약이 있다는 한계점을 인식하고, 이를 해결하기 위한 경량화된 이미지 인페인팅 시스템을 제안한다. 제안된 모델은 가이던스 정보 (Guidance information) 를 중심으로 하여, 딥러닝 모델이 모든 정보를 스스로 학습해야 하는 부담을 줄이는 동시에 복원 성능을 유지할 수 있도록 설계되었다. 전통적인 컴퓨터 비전 기반의 특징 추출 기법에서 도출한 엣지 (edge), SIFT 방향성 맵, 지역 이진 패턴 (LBP) 등의 가이던스 정보를 활용함으로써, 계산 비용이 낮고 해석 가능성이 높은 정보를 딥러닝 네트워크에 명시적으로 제공할 수 있도록 했다. 연구는 두 단계로 구성된다. 첫 번째 단계에서는 얼굴 이미지 복원을 위한 기본 구조를 개발하였고, 이는 마스크로 가려지지 않은 영역에서 추출된 라플라시안 엣지 맵을 U-Net 기반 생성자에 입력으로 제공함으로써 성능을 향상시켰다. 두 번째 단계에서는 일반적인 이미지 인페인팅으로 연구 범위를 확장하였고, 엣지 외에도 SIFT 방향성 맵과 LBP 맵을 추가 가이던스로 도입하여 보다 복잡한 구조와 질감을 복원할 수 있도록 하였다. 모델 구조 측면에서는, 기본 U-Net 구조에 Dilated Residual Block을 도입하여 파라미터 수 증가 없이 수용 영역을 확장할 수 있도록 하였다. 판별자는 얼굴과 일반 이미지 모델 모두에 PatchGAN 구조를 사용하여 지역 일관성 평가를 강화하였다. 이처럼 전통적 특징 추출 기법과 딥러닝 생성 모델의 하이브리드 통합은 경량화와 성능 간의 균형이라는 과제를 성공적으로 해결하였다. 실험은 얼굴 이미지 (CelebA-HQ, FFHQ) 와 일반 이미지 (Paris Street View, Places2) 데이터셋을 통해 수행되었으며, 제안 모델은 파라미터 수 및 FLOPs 면에서 기존 대형 모델 대비 현저한 절감을 이루는 동시에 시각적 품질과 정량적 성능 지표 모두에서 경쟁력을 유지함을 입증하였다. 특히 별도의 학습이 필요한 보조 네트워크 없이도 구조적 정보를 제공할 수 있는 가이던스 전략은 모델 전체의 경량화에 크게 기여하였다. 이러한 접근은 향후 모바일 기기, 엣지 컴퓨팅, 실시간 응용 등 자원이 제한된 환경에서의 이미지 인페인팅 기술 활용 가능성을 크게 높이며, 효율적 AI의 흐름에 기여할 수 있을 것으로 기대된다.

more

목차

제 1장 서론 1
1.1연구배경 1
1.2 본 논문의 구성 8
제 2장 관련 연구 9
2.1 전통적인 이미지 인페인팅 기법 9
2.2 딥러닝 기반 이미지 인페인팅 10
2.3 가이던스 정보를 활용한 인페인팅 13
2.4 얼굴 이미지 인페인팅 15
제 3장 가이던스 기반 이미지 인페인팅을 위한 이미지 특징 추출 방법 : 주요기법 소개 및 적용 방안 18
3.1 서론 18
3.2 가이던스 정보 생성을 위한 이미지 특징 추출 방법 20
3.2.1 엣지 기반 가이던스 정보 20
3.2.2 방향성 표현 가이던스 정보 23
3.2.3 텍스쳐 기반 가이던스 정보 27
3.2.4 기타 가이던스 정보 29
3.3 제안하는 이미지 인페인팅을 위한 가이던스 정보 선택 32
3.3.1 엣지 정보 33
3.3.2 방향성 정보 33
3.3.3 텍스쳐 정보 34
3.4 요약 및 결론 35
제 4장 가이던스 정보를 사용한 가려진 얼굴 복원 38
4.1 서론 38
4.2 가이던스 정보를 사용한 가려진 얼굴 복원 모델 39
4.2.1 엣지 이미지 39
4.2.2 네트워크 구조 40
4.3 실험 결과 45
4.3.1 실험 환경 45
4.3.2 결과 48
4.3.3 추가 실험 결과 60
4.4 요약 및 결론 69
제 5장 가이던스 정보를 사용한 경량 GAN 기반 이미지 인페인팅 시스템 71
5.1 서론 71
5.2 가이던스 정보를 사용한 경량 GAN 기반 이미지 인페인팅 시스템 72
5.2.1 가이던스 정보 72
5.2.2 네트워크 구조 78
5.3 실험 결과 83
5.3.1 실험 환경 83
5.3.2 결과 85
5.3.3 추가 실험 결과 98
5.4 요약 및 결론 101
제 6 장 결론 103
References 106

more