검색 상세

PAFormer : Part Aware Transformer for person Re-identification

초록

Within the domain of person re-identification (ReID), partial ReID methods are considered mainstream, aiming to measure feature distances through comparisons of body parts between samples. However, in practice, previous methods often lack sufficient awareness of anatomical aspect of body parts, resulting in the failure to capture features of the same body parts across different samples. To address this issue, we introduce Part Aware Transformer (PAFormer), a pose estimation based ReID model which can perform precise part-to-part comparison. In order to inject part awareness to PAFormer, we introduce learnable parameters called ‘pose token’ which estimate the correlation between each body part and partial regions of the image. Additionally, leveraging the enhanced awareness of body parts, PAFormer suggests the use of a learning-based visibility predictor to estimate the degree of occlusion for each body part. Also, we introduce a teacher forcing technique using ground truth visibility scores which enables PAFormer to be trained only with visible parts. Notably, at inference phase, PAFormer operates without additional modules related to body part localization, which is commonly used in previous ReID methodologies leveraging pose estimation models. A set of extensive experiments show that our method outperforms existing approaches on wellknown ReID benchmark dataset

more

초록

최근 보행자 재인식 기술 (Person Re-identification) 영역에서는 사람의 신체 부위간 비교를 통해 feature distance를 측정하는 partial ReID 기법이 mainstream으로 자리잡았다. 그러나, 우리는 기존 partial ReID 방법들이 사람의 신체 부위에 대한 충분한 인지 능력이 부족하며, 실제로는 서로 다른 샘플 사이에 동일한 신체 부위의 특징을 추출하지 못하여 partial ReID의 기본 목적과 어긋남을 지적한다. 이 문제를 해결하기 위해 우리는 pose estimation 기반의 ReID 모델인 Part Aware Transformer (PAFormer)를 제안한다. PAFormer는 pose token이라는 learnable parameter를 사용해 이미지의 특정 영역과 사람의 신체 부위 간 연관관계를 추정한다. 신체 부위에 대한 명확한 인지 능력을 갖춘 PAFormer는 이를 활용해 학습 기반의 visibility predictor를 사용하여 occlusion 문제에 대처한다. 또한, teacher forcing 기법을 이용해 보이는 신체 부위에 대해서만 학습될 수 있도록 하여 noise의 영향을 줄인다. PAFormer가 pose 기반의 방법이긴 하지만, inference시에는 외부 pose estimation model 및 신체 부위에 대한 추가적 localization module이 필요하지 않아 기존 방법 대비 연산 부담이 추가되지 않는다. 제안하는 PAFormer를 사용해 실험한 결과, 3개의 유명 ReID benchmark dataset에 대해 mAP와 Rank-1 score 성능이 향상되었음을 확인했다. 또한, ablation study를 통해 제안하는 세부 방법들 각각의 효용성을 확인하였다.

more

목차

1 Introduction 1
2 Related works 6
2.1 Person Re-identification 6
2.2 CNN based ReID methods 7
2.3 Transformer based ReID methods 8
3 Proposed Method 9
3.1 Problem Setting 9
3.2 PAFormer 10
3.2.1 Pose tokens 11
3.2.2 Feature Refinement 12
3.2.3 Part Awareness 13
3.2.4 Partial Features 15
3.2.5 Visibility Predictor 16
3.2.6 Teacher forcing based on visibility score 17
3.2.7 Objective Function and Inference 17
3.2.8 Time complexity of PAFormer 18
4 Experiments 19
4.1 Datasets 19
4.2 Implementation Details 20
4.3 Ground truth Pose heatmap ground truth Visiblity score 20
4.4 Visualization 21
4.4.1 Attention maps 21
4.4.2 Visibility scores 23
4.5 Comparison with existing methods 24
4.6 Ablation Study 26
4.6.1 The number of pose tokens, P 26
4.6.2 Validity of the visibility score 28
4.7 Limitation 29
5 Conclusion 30
Bibliography 31

more