검색 상세

초해상도를 위한 sparse하게 선택된 코드북을 이용한 영상 표현

Image representation using sparsely sampled codebook for super resolution

초록/요약

본 논문은 vector quantization 코드북과 필터 dictionary를 이용한 super resolution (SR) 방법을 제안하였다. Sparse하게 sample된 신호를 복원하는 compressive sensing의 개념을 적용하기 위하여 코드워드의 sparse한 선택으로 영상의 patch를 나타내도록 하였다. 그리고 high-resolution 영상으로부터 low-resolution (LR) 영상을 얻는 과정을 blurring 후에 down sampling 된다고 보고, 이 때 각 복원하는 해상도의 배수마다 blurring operator를 알고 있다고 가정하였다. 다양한 특징을 가지는 여러 장의 영상으로 코드북을 구성하고 각 코드워드에 적절한 필터를 생성하였다. 필터는 원영상과 blurring으로 열화된 영상과의 auto correlation과 cross correlation으로부터 구하였다. 비록 필터를 학습하는 과정에서 blur 정도를 미리 정하지만 복원과정에서 blur 파라미터를 구해야 하는 과정이 없기 때문에 계산시간을 줄일 수 있다. 기존의 example 기반의 SR 방법은 저장되는 patch의 개수에도 영향을 많이 받지만 제안한 방법은 코드워드의 조합으로 복원하기 때문에 example 개수에 대한 의존도를 줄일 수 있다. 또한 각 코드워드의 특징에 맞는 필터를 가짐으로써 좀더 원영상에 가깝게 복원할 수 있다. 코드워드를 적절히 조합하기 위해서 최적화 방법을 사용하였다. 또한 제안한 방법에서는 CS의 개념을 이용하여 많은 개수의 코드워드를 조합하기 보다는 가장 가까운 코드워드를 하나 혹은 두 개 이상의 작은 개수만 선택하여 이에 대한 계수를 구하기 위해서 iterative reweighted l1 (IRWL1) norm 최소화를 사용하였다. IRWL1 norm은 기존의 l1 norm 최소화의 convexity와 l0 norm의 sparsity의 장점을 모은 최소화 방법이다. 실험 결과를 통해 단일 영상의 SR 방법의 성능을 보였다. 원영상과의 PSNR을 통해서 결과영상의 화질을 비교하여 제안한 방법이 효과적으로 해상도를 높이는지 보였다.

more

초록/요약

This thesis presents a novel super resolution (SR) method using vector quantization codebook and filter dictionary. In the process of SR, we use the idea of compressive sensing to represent a sparsely sampled signal under the assumption that a combination of a few codewords can represent an image block. Then, the low-resolution (LR) image block is obtained from an original high-resolution (HR) image degraded by blurring and down sampling. A number of training images with various features are used to construct a codebook and generate filters under each codeword. The filters are obtained using auto- and cross-correlations between original HR images and their degraded versions. We preset the degradation operator in training procedure. However, as the degradation level is assumed to be known from filter dictionary, we just use the LR image to the reconstruction stage without blur identification. Many dictionary (or example) based SR methods use over-complete dictionary to have more exact candidates whereas our method uses the filter dictionary under the assumption that each image patch is represented using a couple of codewords. Thus, the number of filters is much smaller than those of conventional methods. We propose a resolution enhancement using alternative l1 norm minimization to overcome the convexity of l0 norm and the sparsity of l1 norm at the same time. We use iterative reweighted l1 norm minimization for good optimization. Experiments with a large number of test images show that the proposed SR method with a single image gives better results than the conventional methods.

more

목차

제1장 서론 = 1
제2장 Compressive sensing (CS) = 7
제1절 CS 이론 배경 = 8
제2절 신호 복원을 위한 norm minimization = 9
제3절 Iterative reweighted l1 (IRWL1) norm minimization = 11
제4절 Norm 최소화 결과 비교 = 13
제3장 CS를 적용한 제안한 SR 방법 = 17
제1절 기존의 SR 방법의 모델링 = 17
제2절 IRWL1 norm 최소화를 이용한 SR = 20
1. 제안한 SR 방법의 모델링과 최소화 = 20
2. 필터 dictionary 학습 = 30
제4장 실험 결과 및 토의 = 35
제1절 실험 조건 설정 = 35
제2절 실험 결과 = 36
1. 필터 개수에 따른 SR 성능 비교 = 37
2. 다양한 영상에 대한 실험 결과 = 40
제5장 결론 및 추후과제 = 45
참고문헌 = 46
부록 = 50
A.◁수식 삽입▷(원문을 참조하세요)의 성립 증명 및 예 = 50
그림목차
그림 1. 여러 가지 norm 최소화 결과. (a) 원신호. (b) 측정된 신호. (c) l2 norm 최소화 결과. (d) l1 norm최소화 결과. (e) IRWL1 norm 결과 (위에서부터 3번, 20번, 60번 iteration 결과). = 15
그림 2. 일반적인 LR 영상을 얻는 과정 모델링. (a) 하나의 영상을 사용한 모델링. (b) 여러 장의 영상을 사용한 모델링. = 19
그림 3. 제안한 SR 방법의 LR 영상을 얻는 과정 모델링. = 21
그림 4. 제안한 SR 방법의 블록도. = 22
그림 5. x 의 원소 하나에 대한 stacked 벡터 z 와의 관계. = 24
그림 6. HR에서 LR로 down sampling. = 27
그림 7. Sparse하게 표현된 stacked 벡터 z 와 LR 영상의 패치 y의 행렬 연산 형태의 표현. = 28
그림 8. 영상의 패치 x 가 sparse하게 선택된 VQ 들의 위치에서만 필터링하여 y 신호를 얻는 과정. = 28
그림 9. 제안한 SR 방법의 학습 과정. = 31
그림 10. 학습과정에서 사용한 영상. = 32
그림 11. Girl 영상에 대한 코드워드의 개수를 변화시켰을 때의 결과. (a) 원영상 (b) LR 영상 (c), (d), (e) 코드워드를 1개, 2개, 3개 선택했을 때의 복원 영상. (f) Bicubic interpolation 결과. = 38
그림 12. Building 영상에 대한 코드워드의 개수를 변화시켰을 때의 결과. (a) 원영상 (b) LR 영상 (c), (d), (e) 코드워드를 1개, 2개, 3개 선택했을 때의 복원 영상. (f) Bicubic interpolation 결과. = 39
그림 13. 2배 크기로 복원한 결과. (a) Book 원영상 과 LR 영상 (b) MSE 영상. (c) 복원 영상. (d) 확대 영상. = 42
그림 14. 3배 크기로 복원한 결과. (a) Lighthouse 원영상 과 LR 영상 (b) MSE 영상. (c) 복원 영상. (d) 확대 영상. = 43
그림 15. 4배 크기로 복원한 결과. (a) Red hat 원영상 과 LR 영상 (b) 복원 영상. (c) 확대 영상. = 44
표목차
표 1. CS의 수식표현에 대응하는 제안한 SR 방법의 수식표현 = 29
표 2. 코드워드 개수에 따른 PSNR 성능 비교 = 40
표 3. 복원 크기에 따른 PSNR 및 계산 시간 = 41
그림목차
그림 1. 여러 가지 norm 최소화 결과. (a) 원신호. (b) 측정된 신호. (c) l2 norm 최소화 결과. (d) l1 norm 최소화 결과. (e) IRWL1 norm 결과 (위에서부터 3번, 20번, 60번 iteration 결과). = 15
그림 2. 일반적인 LR 영상을 얻는 과정 모델링. (a) 하나의 영상을 사 용한 모델링. (b) 여러 장의 영상을 사용한 모델링. = 19
그림 3. 제안한 SR 방법의 LR 영상을 얻는 과정 모델링. = 21
그림 4. 제안한 SR 방법의 블록도. = 22
그림 5. x 의 원소 하나에 대한 stacked 벡터 z 와의 관계. = 24
그림 6. HR에서 LR로 down sampling. = 27
그림 7. Sparse하게 표현된 stacked 벡터 z 와 LR 영상의 패치 y 의 행렬 연산 형태의 표현. = 28
그림 8. HR 영상의 패치 x 가 sparse하게 선택된 VQ 들의 위치에서만 필터링하여 y 신호를 얻는 과정. = 28
그림 9. 제안한 SR 방법의 학습 과정. = 31
그림 10. 학습과정에서 사용한 영상. = 32
그림 11. Girl 영상에 대한 코드워드의 개수를 변화시켰을 때의 결과. (a) 원영상 (300´ 300). (b) LR 영상 (150´150). (c), (d), (e) 코드워드를 1개, 2개, 3개 선택했을 때의 복원 영상. (f) Bicubic interpolation 결과. = 38
그림 12. Building 영상에 대한 코드워드의 개수를 변화시켰을 때의 결과. (a) 원영상 (480´ 480). (b) LR 영상 (160´160). (c), (d), (e) 코드워드를 1개, 2개, 3개 선택했을 때의 복원 영상. (f) Bicubic interpolation 결과. = 39
그림 13. 2배 크기로 복원한 결과. (a) Book 원영상 (240´ 240) 과 LR 영상 (120´120). (b) MSE 영상. (c) 복원 영상. (d) 확대 영상. = 42
그림 14. 3배 크기로 복원한 결과. (a) Lighthouse 원영상 (300´ 300) 과 LR 영상 (100´100). (b) MSE 영상. (c) 복원 영상. (d) 확대 영상. = 43
그림 15. 4배 크기로 복원한 결과. (a) Red hat 원영상 (480´ 720) 과 LR 영상 (120´180). (b) 복원 영상. (c) 확대 영상. = 44
표목차
표 1. CS의 수식표현에 대응하는 제안한 SR 방법의 수식표현 = 29
표 2. 코드워드 개수에 따른 PSNR 성능 비교 = 40
표 3. 복원 크기에 따른 PSNR 및 계산 시간 = 41

more