TIFF : 참조 얼굴을 보존하는 텍스트 기반 전신 이미지 생성
TIFF: Text-Guided Generation of Full-Body Image with Preserved Reference Face
- 주제어 (키워드) Animation Customization , Face Preservation , Full-Body Human Image Synthesis , Text-Guided Image Editing , Pose Guidance in Human Image Animation
- 발행기관 서강대학교 일반대학원
- 지도교수 정문열
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000078858
- UCI I804:11029-000000078858
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
이 논문은 개인 맞춤형 애니메이션 생성을 위해 전통적인 포즈 가이드 인간 신체 애니메이션 모델을 확장하는 방법론을 소개한다. 여기서 '포즈 가이드'란 소스 인간 모션 비디오에서 추출한 포즈 시퀀스를 사용하여 애니메이션을 생성하는 것을 의미한다. 본 연구는 이 과정에서 발생하는 세 가지 도전 과제를 해결하고자 한다. 이 시스템은 참조 인간 이미지, 이를 설명하는 텍스트 프롬프트, 그리고 소스 인간 모션 비디오를 활용하여 고급 제어가 가능한 애니메이션을 생성한다. 핵심 네트워크인 TIFF(Text, Image, Face, Full-body Network)은 텍스트 가이드 파이프라인, 이미지 및 얼굴 인코더를 포함하는 확장된 이미지 어댑터, 얼굴과 전신을 관리하는 두 종류의 ControlNet, 그리고 얼굴 보존 모듈인 Face Module 을 통합하기 위해 기존 모듈을 재구성한다. 전통적인 포즈 가이드 인간 신체 애니메이션 모델은 종종 SMPL(Skinned Multi- Person Linear)과 같은 3D 인간 파라메트릭 모델을 사용하여 신체 형태와 포즈를 통합한다. 참조 인간 이미지와 소스 모션 비디오가 주어지면, 이 모델들은 참조 인물의 기하학적 형태를 포착하고 소스 비디오의 동작을 재현한다. 이러한 모델은 어느 정도의 맞춤형 애니메이션을 달성할 수 있지만, 사용자 의도를 더 잘 반영하기 위해 세 가지 개선이 필요하다. 첫째, 이 시스템은 사용자가 하나의 파이프라인에서 텍스트를 활용하여 참조 이미지를 쉽게 변형할 수 있게 해준다. 예를 들어, 조신한 인물의 이미지를 노란 머리에 가죽 자켓을 입은 모습으로 변경하여 맞춤형 애니메이션을 생성할 수 있다. 둘째, 시스템은 참조 이미지와 소스 비디오 간의 신체 형태 일관성 문제를 해결한다. 예를 들어, 참조 인물의 상반신만을 전신 동작과 결합하면 하반신 정보 부족으로 일관성이 손상된다. TIFF은 전신 이미지를 생성하여 이 문제를 해결한다. 마지막으로, 얼굴과 손의 세부 사항이 개선된다. SMPL 모델은 인간 동작의 일반화된 표현에 중점을 두어 얼굴과 손의 세부 묘사가 제한된다. TIFF 과 Face Module 은 확장된 이미지 어댑터를 통해 얼굴 속성을 강화하고, 전신 ControlNet 의 손 랜드마크를 사용하여 손의 묘사를 개선한다. Face Module 은 고해상도로 얼굴 특징을 보존하고 복원한다. 이러한 개선 사항은 수집된 데이터셋을 사용한 다양한 실험을 통해 검증되었으며, 사용자들이 더 쉽게 맞춤형 애니메이션을 생성할 수 있도록 한다.
more초록 (요약문)
This paper introduces a methodology to extend traditional pose-guided human image animation models for customized animation generation.‘Pose- guided’ refers to using sequences of poses extracted from source human motion videos to generate animations. This research addresses three challenges in this process. The system utilizes reference human images, text prompts describing these images, and source human motion videos to generate advanced, controllable animations. The core network, TIFF(Text, Image, Face, Full-body Network), reconfigures existing modules to incorporate a text-guided pipeline, an extended image adapter with image and facial encoders, two types of ControlNet for managing faces and full- body, and a facial preservation module named Face Module. Traditional pose-guided human image animation models often use 3D human parametric models like SMPL(Skinned Multi-Person Linear) to integrate body shape and pose. Given a reference human image and source motion video, these models capture geometric shape of reference person and motion of source video. While achieving a degree of customization, three improvements are needed for better user intent reflection. First, the system lets users easily change reference images using text in one pipeline. For example, it can generate an image of a usually polite person with yellow hair and a leather jacket for customized animations. Second, it addresses body shape consistency between reference image and source video. For instance, merging only upper body of reference person with full-body motion damages consistency due to lack of lower body information. TIFF generates full-body images to resolve this issue. Lastly, face and hand details are improved. SMPL model’s generalized human motion representation limits facial and hand detail. TIFF and Face Module overcome this by enhancing facial attributes through an extended image adapter and using full-body ControlNet’s skeleton with hand landmarks for better hand depiction. Face Module further preserves and restores facial features in high resolution. These enhancements, validated through various experiments using a collected dataset, facilitate easier customized animation generation for users.
more목차
제 1 장 서 론 9
1.1 연구 배경 9
1.2 연구 문제 및 목적 10
제 2 장 관련 연구 13
2.1 텍스트 가이드 이미지 확산 모델 14
2.2 특정 대상 기반 이미지 생성 15
2.3 인간 신체 애니메이션 생성 16
2.4 얼굴 교체 및 복원 기술 18
제 3 장 TIFF 설계 19
3.1 기본 개념 22
3.2 전통 인간 신체 애니메이션 생성 모델의 한계점 32
3.3 TIFF 설계 33
3.3.1 네트워크 구조 33
3.3.2 텍스트 가이드 파이프라인 35
3.3.3 확장된 이미지 어댑터 36
3.3.4 얼굴 및 전신 제어 네트워크 37
3.3.5 얼굴 보존 모듈 (Face Module) 39
제 4 장 실험 및 결과 41
4.1 실험 환경 41
4.1.1 데이터셋 구성 41
4.1.2 구현 세부 사항 44
4.1.3 성능 평가 방법 46
4.2 정량적 비교 47
4.2.1 이미지 어댑터 모델 간의 비교 47
4.2.2 기존 방법과 비교 50
4.3 제거 실험 연구 58
4.3.1 확장된 이미지 어댑터 제거 실험 58
4.3.2 전신 제어 네트워크 제거 실험 61
4.3.3 Face Module에서 Face Reconstruction 제거 실험 64
4.3.4 Face Module 제거 실험 및 IPA와 조합 67
4.3.5 TIFF 제거 실험 70
4.4 향후 연구와 한계점 72
제 5 장 결 론 74
제 6 장 참고 문헌 76