검색 상세

사용자 맞춤형 강화학습을 활용한 이미지 생성 알고리즘 성능 향상에 관한 연구

초록 (요약문)

인공지능 기술은 다양한 분야에 걸쳐 기술 혁신을 주도하고 있으며, 특히 이미지 생성 분야에서는 중요한 역할을 맡고 있다. 대규모 데이터셋으로 학습된 생성 모델은 사용자가 상세한 텍스트 프롬프트를 통해 원하는 이미지를 생성할 수 있게 하지만, 때때로 이러한 이미지들은 사용자의 의도와 다르게 생성되거나 품질이 낮아지는 문제가 발생한다. 특히 자신만의 독특한 그림체와 선호하는 방향을 가진 사용자에게는 이러한 문제가 더욱 심각하게 다가올 수 있다. 이를 해결하기 위해 본 연구에서는 개인 맞춤형 이미지 생성을 위한 새로운 파이프라인을 제안한다. 이 파이프라인은 두 단계로 구성되어 있으며, 첫 단계에서는 강화학습을 이용해 사용자의 선호도에 부합하는 스케치를 생성하고, 두 번째 단계에서는 이 스케치에 채색 작업을 한다. 이 과정은 인간이 그림을 그리는 방식과 유사하며, 이를 통해 더욱 정교하고 사용자의 의도를 정확히 반영하는 이미지를 생성할 수 있다. 또한, 본 논문에서는 제안한 이미지 생성 파이프라인의 효과를 기존의 미세조정(Fine- tuning) 방법과 비교 분석하며, 정성적 및 정량적 평가를 통해 그 우수성을 입증한다. 실험을 통해, 기존에는 표현하기 어려웠던 형태의 이미지도 텍스트만으로 사용자의 의도에 부합하는 결과물을 성공적으로 생성할 수 있었으며, ImageReward 및 Aesthetic 점수에서도 높은 성과를 보였다. 이미지의 상세한 부분에서 품질 향상과 학습 데이터에 대한 충실도 향상 역시 확인할 수 있었다. 이와 더불어, 기존 RGB 이미지를 대상으로 진행되던 강화학습에 비해, 스케치에 해당하는 Canny Edge 이미지를 사용한 강화학습이 훨씬 빠른 학습 수렴을 보였으며, 이는 개인화된 이미지 생성에 유리한 조건을 제공한다는 것을 발견하였다. 이러한 접근 방식은 인공지능이 이미지를 생성하는 과정을 한층 더 인간화하며, 기술의 발전과 사용자 경험의 향상을 도모하는 중요한 발전으로 자리매김할 수 있을 것이다.

more

초록 (요약문)

Artificial intelligence technology is leading technological innovations across various fields, particularly playing a crucial role in the area of image generation. Generative models trained on large datasets enable users to create desired images through detailed text prompts. However, occasionally, these images may be generated contrary to the user's intentions or may suffer from poor quality. This issue can be especially severe for users who have a unique artistic style and preference. To address this, this study proposes a new pipeline for personalized image creation. The pipeline is structured in two stages: the first stage uses reinforcement learning to create sketches that match the user's preferences, and the second stage involves coloring these sketches. This process, which mimics the way humans paint, allows for the creation of more precise and intention-reflective images. Furthermore, this paper evaluates the effectiveness of the proposed image creation pipeline compared to conventional fine-tuning methods through qualitative and quantitative assessments. Through experiments, it was demonstrated that images of forms previously difficult to express can now be successfully created solely through text, aligning well with the user's intentions, and achieving high scores in ImageReward and Aesthetic metrics. Enhancements in image detail and fidelity to training data were also observed. Additionally, compared to reinforcement learning on conventional RGB images, using Canny Edge images for sketches showed much faster convergence of learning. This finding suggests that personalized image creation can be greatly facilitated under these conditions. This approach humanizes the AI-driven image generation process further, marking a significant advancement in technology development and enhancing user experience.

more

목차

제 1 장 서론 1
제 1 절 연구의 배경 및 필요성 1
제 2 절 연구 목적 2
제 2 장 이론적 배경 및 관련 연구 4
제 1 절 Diffusion 모델을 통한 이미지 합성 4
제 2 절 강화학습을 활용한 Diffusion 모델 미세 조정 5
(1) Reinforcement Learning from Human Feedback(RLHF) 5
(2) Reward Feedback Learning(ReFL) 6
제 3 절 컨트롤넷(ControlNet)을 활용한 Diffusion 모델 제어 8
제 3 장 설계 및 구현 10
제 1 절 설계 개요 10
제 2 절 Stable Diffusion 모델 미세 조정 학습 14
제 3 절 컨트롤넷(ControlNet) 학습 14
제 4 절 보상 모델(Reward Model) 학습 15
제 5절 Reward Feedback Learning(ReFL) 17
제 6 절 Canny Edge 이미지 이진화 변환 19
제 4 장 실험 결과 및 성능 분석 20
제 1 절 실험 환경 20
제 2 절 데이터 셋 21
(1) 데이터셋 소개 21
(2) 이미지 전처리 및 데이터 증강 22
(3) 데이터 라벨링 및 분포 22
제 3 절 스케치 베이스 모델의 강화학습(RL) 필요성 25
제 4 절 채색 모델 결과 분석 26
제 5 절 원본 데이터 와 Canny Edge 데이터의 강화 학습 곡선 비교 29
제 6 절 Metric 을 통한 실험 평가 32
제 7 절 이미지 품질 및 텍스트 연관성 비교 34
제 8 절 데이터 편향 문제 해결 및 학습 데이터 충실도 향상 37
제 5 장 결론 및 한계 39
참고 문헌 41

more