Key-to-3D : Learning Keyword Semantics for Compositional Text-to-3D Generation
Key-to-3D: 텍스트-3D 생성을 위한 키워드 의미론 학습
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000076286
- UCI I804:11029-000000076286
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 score distillation을 활용한 학습 방식의 도입으로 text-to-3D (T23D) 분야 연구들의 비약적인 발전이 있었다. 이는 사전 학습된 text-to-image (T2I) diffusion model을 활용하여 zero-shot으로 neural radiance fields (NeRF)을 최적화함으로써 새로운 시점에 대한 영상을 생성하는 방식을 뜻한다. 이러한 T23D model들은 단순한 입력 prompt에 대해서는 놀라운 성능을 보이지만, compositional prompt에서는 여러 keyword가 포함될 경우 생성에 대한 명확한 한계가 있다. 본 논문에서는 생성된 3D model의 compositionality을 향상시키기 위해 keyword semantics을 학습하는 새로운 접근 방식인 Key-to-3D를 제안한다. 우리는 먼저 사전 학습된 언어 model을 활용하여 입력 prompt에서 keyword를 추출하고, 이를 통해 compositional prompt에 강건한 사전 학습된 2D diffusion model을 finetune 한다. 또한, point cloud 생성 model에서 추출한 3D prior을 활용하여 conditional T2I model을 finetune 함으로써 생성 model이 3D awareness를 학습하도록 유도한다. 마지막으로, score distillation에 사용되는 LoRA layer를 중심적으로 finetune하여 생성 결과가 keyword semantics을 유지하도록 한다. 그 결과, 본 기법은 compositional prompts를 사용하여 수행된 정성적 및 정량적 실험 결과 모두 최신 T23D 방법론들 사이에서 가장 뛰어난 성능을 나타내었다.
more초록 (요약문)
In recent days, there have been significant advances in text-to-3D (T23D) due to the advent of score distillation, a method that optimizes neural radiance fields (NeRF) in zero-shot by using pretrained text-to-2D diffusion models to generate view images. Despite their remarkable performance for simple input prompts, they show a definite limitation in generation for compositional prompts, especially when involving multiple keywords. In this paper, we propose Key-to-3D, a novel approach that learns keyword semantics to enhance 3D compositionality of generated 3D models. We first extract keywords from the input prompt by leveraging the pretrained language model and finetune the pretrained 2D diffusion model, which is robust to compositional prompts. In addition, we inject 3D awareness by finetuning conditional T2I model with 3D priors extracted by point cloud generation model. Lastly, we maintain keyword semantics by pivotal tuning LoRA layers, which are used for score distillation to optimize NeRF in the final stage. As a result, our method outperforms prior T23D methods in both qualitative and quantitative results, which were conducted via compositional prompts.
more