Realistic Movement Synthesis Augmented by Adjustable View Angles
- 주제어 (키워드) Video Synthesis
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000079375
- UCI I804:11029-000000079375
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Generating realistic human motion in videos from text inputs poses significant challenges, particularly in achieving complex, natural movement and maintaining correct subject proportions. This paper presents a novel two-stage approach to address these limitations. In the first stage, a text-driven network generates three-dimensional (3D) human motion sequences, which are then projected into two-dimensional (2D) skeletons using a dedicated projection module. These skeletons serve as the foundation for the second stage, where a final video is synthesized, ensuring accurate and well-represented subject movements. Unlike previous models that rely on both text and skeleton inputs, our method relies solely on text to generate motion while incorporating skeletons as an auxiliary condition to refine the generation process. This framework surpasses existing text-to-video models in both quantitative metrics and visual quality, offering a new approach to producing realistic human motion videos from text-based prompts.
more초록 (요약문)
텍스트 입력을 기반으로 현실적인 인간 움직임을 비디오로 생성하는 것은 복잡하고 자연스러운 동작을 구현하며 올바른 인물 비율을 유지하는데 있어 중요한 도전 과제이다. 이 논문에서는 이러한 한계를 극복하기 위한 새로운 2단계 접근 방식을 제안한다. 첫 번째 단계에서는 텍스트 기반 네트워크가 3차원(3D) 인간 동작 시퀀스를 생성하고, 이를 전용 투영 모듈을 통해 2차원(2D) 스켈레톤으로 투영한다. 이 스켈레톤은 두 번째 단계에서 비디오를 합성하는데 사용되며,이를 통해 피사체의 동작이 정확하고 잘 표현되도록 보장한다. 기존 모델들이 텍스트와 스켈레톤 입력을 모두 활용하는 것과 달리, 우리의 방법은 텍스트만을 이용해 동작을 생성하고, 스켈레톤을 보조 조건으로 사용해 생성 과정을 정교하게 만든다. 본 프레임워크는 기존 텍스트-비디오 생성 모델보다 정량적 성능과 시각적 품질 면에서 우수한 결과를 보이며, 텍스트 기반 프롬프트로부터 현실적인 인간 동작 비디오를 생성하는 새로운 접근법을 제시한다.
more목차
I . Introduction 1
II . Related Works 4
III . Proposed Method 6
3.1 Text to Camera Projection Module 7
3.2 Pose Guided Video Generation 10
IV . Experiments 11
4.1 Experimental Results 11
4.2 Evaluation Metrics 12
4.3 Quantitative Results 13
4.4 Qualitative Results 15
4.5 Limitations 18
4.6 Discussion 19
V . Conclusion 27
Bibliography 28

