키포인트 그래프를 통한 점 단위 포즈 회귀에 기반한 다중 물체의 End-to-End 6 자유도 포즈 추정
End-to-End Multi-object 6D Pose Estimation Through Point-Wise Pose Regression via Keypoint-Graph
- 주제어 (키워드) 컴퓨터 비전 , 딥러닝 , 물체 포즈 추정; Computer Vision , Deep Learning , Object Pose Estimation
- 발행기관 서강대학교 일반대학원
- 지도교수 정석환
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 기계공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079184
- UCI I804:11029-000000079184
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 논문은 RGB-D 이미지에서 다중 물체의 6 자유도 포즈를 추정하기 위한 새로운 end-to-end 포즈 추정 프레임워크인 KGpose를 제안한다. 6 자유도 포즈 추정은 물체의 3차원 회전과 3차원 평행이동을 이미지로부터 정확하게 파악하는 것이 목표이다. 그리고 KGpose는 키포인트 기반 방식과 그래프 뉴럴 네트워크를 결합하여 기존 end-to-end 방식의 localization 단계 없이 포즈 추정을 수행으로써 기존 방법들의 한계를 극복하고자 했다. 제안한 방법의 주요 특징은 다음과 같다. 먼저, RGB 이미지와 포인트 클 라우드 정보를 각각 encoder-decoder 구조의 backbone 을 통해 추출하고, 서로 다른 모달리티의 두 feature 의 상호보완적인 학습을 위해 feature fusion 을 활용하였다. 더불어 feature 를 효과적으로 융합하기 위해 attention 모듈 기반의 bidirectional feature fusion 을 활용하였다. 그리고 융합된 feature 에 대해 skip connection 을 적용하여 feature 의 학습을 보조했다. 이 과정을 통해 외관 정보와 기하학적 정보를 동시에 활용하여, 물체의 semantic label 과 더불어 정확한 3차원 키포인트를 추정하였다. 그 후, 3차원 키포인트를 그래프 표현으로 변환한 뒤, Edge Convolution 을 사용하여 키포인트 간의 기하학적 관계를 학습한다. 학습한 그래프 feature 에 k-NN 기반의 주변 feature 와의 로컬 그래프를 생성하고, 해당 그래프를 다시 Edge Convolution 을 적용함으로써 그래프 feature 를 학습한다. 그리고 3차원 회전 및 평행 이동에 대한 prediction head 를 적용함으로써, 점 단위의 6 자유도 포즈 후보군을 얻을 수 있으며, 해당 후보군을 물체 별로 분류한 후, 가장 적절한 후보를 각각 선택하여 최종적인 6 자유도 포즈로 선정한다. 이로써 KGpose는 기존 end-to-end 방식과 같이 별도의 물체 인식 단계 없이, 여러 물체의 포즈를 동시에 추정할 수 있다는 장점이 있다. 해당 모델의 성능은 다양한 물체가 밀집되어 있는 YCB-Video 데이터셋을 통해 검증하였고, KGpose 는 기존의 최신 방법들과 비교하여 경쟁력 있는 성능을 보여주었다.
more초록 (요약문)
The thesis proposes KGpose, a novel end-to-end pose estimation framework for estimating the 6 degrees of freedom (DoF) pose of multiple objects in RGB-D images. The goal of 6 DoF pose estimation is to accurately determine an object’s 3D rotation and 3D translation from an image. KGpose aims to overcome the limitations of existing methods by combining keypoint-based approaches with graph neural networks to perform pose estimation without a separate localization step, which is common in existing end-to-end methods. The main features of the proposed method are as follows. First, RGB image and point cloud information are extracted through an encoder-decoder backbone structure, and feature fusion is utilized for complementary learning of features from different modalities. Additionally, bidirectional feature fusion based on an attention module is used to effectively combine the features. Skip connections are applied to the fused features to assist in feature learning. Through this process, both appearance and geometric information are utilized to estimate accurate 3D keypoints along with the object’s semantic label. Afterwards, the 3D keypoints are converted into a graph representation, and Edge Convolution is used to learn the geometric relationships between keypoints. A local graph is generated with k-NN based neighboring features from the learned graph features, and Edge Convolution is applied again to learn the graph features. By applying prediction heads for 3D rotation and translation, point-wise 6 DoF pose candidates are obtained. These candidates are then classified by object, and the most appropriate candidate for each object is selected as the final 6 DoF pose. Thus, KGpose has the advantage of being able to estimate the poses of multiple objects simultaneously without a separate object recognition step, similar to existing end-to-end methods. The performance of this model was validated using the YCB-Video dataset, which contains various densely arranged objects, and KGpose demonstrated competitive performance compared to existing state-of-the-art methods.
more목차
I Introduction 1
A Motivation 1
B Related Works 3
C Research Topic 4
D Thesis Outline 5
II Method 7
A Overall Framework 7
B 3D Keypoint Estimation 9
a Embedding Multi-modal Features 9
b Attentional Bidirectional Feature Fusion 11
c Attentional Skip Connections between Fused Features 13
d Keypoint Estimation based on Point-wise Semantic Labels 13
C Differentiable 6D Pose Regression on Keypoint-graphs 16
a Keypoint-graph Embedding 16
b Local Graph Embedding on Learned Point Features 17
c Regressing 6D Pose from Embedded Features 18
D Identifying 6D Pose by Aggregating Candidate 6D Poses 20
III Experiments 22
A Experimental Setup 22
B Quantitative Results on 6D Pose Estimation 22
C Qualitative Results on 6D Pose Estimation 25
IV Conclusion and Future Work 27
References 29