검색 상세

Human Body-Aware Feature Extractor Using Attachable Feature Corrector for Human Pose Estimation

초록 (요약문)

Top-down pose estimation은 일반적으로 detector를 통해 인간을 검출한 후, 검출된 인간의 keypoints를 추정한다. 이는 bounding box 내에 한 인간에 대한 keypoints만 존재한다는 가정에서 시작하는 것이다. 하지만 느슨하게 추정된 bounding box나, 여러 인간 사이의 공간적인 간섭으로 인해 occlusion이 발생하여 bounding box 내에 한 명 이상이 존재하는 경우 이러한 가정에 어긋나는 상황이 발생한다. 이러한 문제점이 발생했을 때, 일반적인 top-down 방식의 pose estimation은 둘 이상의 사람의 keypoints를 한 인간의 keypoints로 잘못 예측할 수 있게 된다. 이를 해결하기 위해, 본 논문은 global \& local reasoning feature를 기반으로 한 human body-aware feature extractor를 제안한다. 기존의 convolutional neural networks만을 사용한 방식은 인간 신체 전체에 대한 고려가 제외되어 있어 앞서 언급한 문제점들이 발생하게 된다. 따라서 Global reasoning feature를 transformer의 non-local computation 특성을 이용하여 대상자의 전체 신체를 고려한 특징값을 추출할 수 있도록 하였다. 또한 convolutional neural networks를 사용한 local reasoning feature를 통해 개별 신체 부위에 집중하도록 설계하였다. 우리가 제안하는 새로운 아키텍처는 이 두 가지 특징값을 사용하여, 대상자의 keypoints 추정에 불필요한 특징값을 제거하고 필요한 특징값을 보완하여 정제된 특징값을 추출하는 역할을 한다. 따라서 제안된 방법은 대상자만의 keypoints에 집중할 수 있게되므로 앞서 언급한 문제점을 완화할 수 있다. 우리의 방법은 state-of-the-art 성능의 top-down pose estimation 네트워크에 적용될 때 눈에 띄는 정량적, 정성적 성능 개선을 보여준다.

more

초록 (요약문)

Top-down pose estimation generally employs a person detector and estimates the keypoints of the detected person. This method assumes that only a single person exists within the bounding box cropped by detection. However, this assumption leads to some challenges in practice. First, a loose-fitted bounding box may include certain body parts of a non-target person. Second, spatial interference between several people exists owing to occlusion, so more than a single person can exist in the cropped image. In such scenarios, the pose estimation may falsely predict the keypoints of two or more persons as those of a single person. To tackle these issues, this thesis proposes the human body-aware feature extractor based on the global- and local-reasoning features. In the conventional convolutional neural networks-based methods, the above-mentioned problems may occur because the consideration of the entire human body is excluded. Thus, the global-reasoning feature considers the entire body using transformer's non-local computation property and the local-reasoning feature concentrates on the individual body parts using convolutional neural networks. With those two features, we extract corrected features by filtering unnecessary features to estimate the target person's keypoints and supplementing necessary features using our proposed novel architecture. Hence, the proposed method can focus on the target person’s keypoints, thereby mitigating the aforementioned concerns. Our method achieves noticeable improvement when applied to state-of-the-art top-down pose estimation networks.

more