검색 상세

3D Hand Dataset Generation Framework with Pose-guided Text-to-Image Diffusion Model

초록

Recently, there has been a significant amount of research conducted on 3D hand mesh reconstruction to use various forms of human-computer interaction. However, 3D hand mesh reconstruction in the wild is challenging for the following reasons. First, annotating 3D hand pose in outdoor environments is excessively laborious. Since collecting a 3D hand dataset requires expensive equipment, usually used in indoor environments, in-the-wild datasets are extremely lacking. In addition, when two hands are interacting, the shortage of training datasets for interacting hands makes it difficult to reconstruct unseen interacting hand poses. To overcome these issues, we propose a novel framework, HANDiffusion, which generates new 3D hand datasets with in-the-wild scenes. Our framework needs just three modalities: an RGB image, a hand pose image, and a text prompt. Therefore, it easily generates numerous images without expensive equipment. These modalities are embedded into the latent space by global and local encoders. Then, through the guidance and diffusion stage, we obtain the diffusion feature, which represents diverse and well-aligned hand images. In experiments to demonstrate the superiority of our framework, the image generation quality of the proposed method achieved state-of-the-art results, and the performance of 3D hand mesh reconstruction was improved compared to previous methods. Specifically, our framework showed the high performance increase in outdoor dataset, which contains realistic and diverse hand situations.

more

초록

최근에는 다양한 형태의 인간과 컴퓨터의 상호 작용을 사용하기 위해 3D 손 메쉬 재구성에 대한 많은 연구가 진행되고 있다. 그러나 야외에서의 3D 손 메쉬 재구성은 다음과 같은 이유로 인해 어렵다. 첫째, 야외 환경에서 3D 손 포즈에 주석을 다는 것은 과도하게 힘든 일이다. 3D 손 데이터 세트를 수집하려면 일반적으로 실내 환경에서의 데이터 수집에서 사용되는 값비싼 장비가 필요하기 때문에 야외에서의 데이터 세트가 매우 부족하다. 또한, 두 손이 상호 작용할 때, 상호 작용하는 손을 위한 훈련 데이터 세트의 부족으로 인해 보이지 않는 상호 작용하는 손 포즈를 재구성하는 것이 어렵다. 이러한 문제를 극복하기 위해, 우리는 야외에서의 장면과 함께 새로운 3D 손 데이터 세트를 생성하는 새로운 프레임워크 HANDiffusion을 제안한다. 우리의 프레임워크는 RGB 이미지, 손 포즈 이미지 및 텍스트 프롬프트의 세 가지 모달리티만 필요로 한다. 따라서 값비싼 장비 없이도 수많은 이미지를 쉽게 생성할 수 있다. 이러한 모달리티는 글로벌 및 로컬 인코더에 의해 잠재 공간에 내장된다. 그 후, 안내 및 확산 단계를 통해 다양하고 잘 정렬된 손 이미지를 나타내는 확산 특징 맵을 얻는다. 제안한 프레임워크의 우수성을 입증하기 위한 실험에서, 제안된 방법의 이미지 생성 품질은 최첨단 성능을 달성했으며 이전 방법에 비해 3D 손 메쉬 재구성의 성능이 향상되었다. 특히, 우리의 프레임워크는 현실적이고 다양한 손 상황을 포함하는 야외 데이터 세트에서 높은 성능 증가를 보였다.

more

목차

I Introduction 1
II Related Work 5
2.1 GANs for Hand 5
2.2 Diffusion Models 5
2.3 3D Hand Datasets 6
III Proposed Method 7
3.1 Preliminary: Latent Diffusion Model 7
3.2 HANDiffusion 7
3.2.1 Data Preparation 9
3.2.2 Hand Box Extractor 9
3.2.3 Global and Local Encoder 10
3.2.4 Architecture 11
3.2.5 Decoder 14
3.3 Optimization 15
IV Experiments 16
4.1 Datasets 16
4.1.1 Image Generation 16
4.1.2 Hand Mesh Reconstruction 16
4.2 Implementation Details 17
4.2.1 Image Generation 17
4.2.2 Hand Mesh Reconstruction 17
4.3 Evaluation Metrics 17
4.3.1 Image Generation 17
4.3.2 Hand Mesh Reconstruction 18
4.4 Comparisons with State-of-the-arts 18
4.4.1 Image Generation 18
4.4.2 Hand Mesh Reconstruction 19
4.5 Ablation Study 30
4.5.1 User Study of Image Generation Performance 30
4.5.2 Multiple Generated Images from the Same 3D Hand Pose 31
4.5.3 Comparison with Fine-tuning and Training from Scratch 32
4.5.4 Diversity of the Generated Dataset 32
4.5.5 Effect of the Scale of the Bounding Box in Hand Box Extractor 33
V Conclusion 35
Bibliography 36

more