A relative positional embedding scheme for Transformer-based person re-identification
- 발행기관 서강대학교 일반대학원
- 지도교수 김경환
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000070009
- UCI I804:11029-000000070009
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 Vision Transformer (ViT) 는 computer vision의 여러 분야에서 Convolutional Neural Network (CNN) 보다 우수한 성능을 보이고 있으며, 보행자 재인식 (person re-identification, 이하 ReID) 에서도 이를 활용한 연구가 활발히 진행되고 있다. ViT는 이미지를 여러 개의 patch로 나누어 해석하는데, 기존 ViT 기반의 ReID 연구들은 네트워크의 분별력을 높이기 위해 인물의 신체 부위를 포함하는 local patch들로부터 시각적 특징을 추출하는 것에 집중하였다. 인물의 신체 부위를 포함하는 patch들이 이미지 상에서 갖는 위치 관계는 visual feature와 별개로 인물 식별에 중요한 단서로 활용될 수 있다. 이는 이러한 patch들의 위치 관계가 신체 비율과 같은 인체 구조 상의 특성을 대변할 수 있기 때문이다. 그러므로, 본 논문에서는 transformer 기반 ReID 모델에서 Relative positional embedding (RPE) 을 활용하여 인물의 신체 구조학적 특징을 학습하는 방법을 제시한다. 먼저, 신체 부위 간의 형태학적 특징을 모델링하기 위해, transformer의 모든 attention head에 존재하는 RPE의 정보를 하나의 분포 형태로 통합한다. 이후, 동일 인물이라면 비슷한 신체 구조를 가진다는 점에서 착안하여 모델링한 분포가 유사해지도록 Jensen-Shannon divergence loss를 사용하여 모델을 학습하였다. 제안한 방법을 사용하여 실험한 결과, 5개의 ReID benchmark dataset에 대해 mAP 와 rank 1 score 성능이 향상됨을 확인하였다. 또한, 학습 방식에서 활용된 구성 요소들의 효용성에 대한 분석과 함께 hyper-parameter 선택의 타당성을 보이기 위한 추가 실험을 진행하였다.
more초록 (요약문)
Recently, the vision transformer based approaches have proven its superiority over CNNs and has also been actively studied in person re-identification (ReID). Existing studies have taken account of extracting contextual information from local patches, which serve as essential visual cues of body parts in distinguishing a person of interest. On the other hand, the topological cue existing in the human body, such as the positional relationship between essential body parts, could also be considered as an important source of distinction, as it is the underlying nature of the person images. Therefore, in this thesis, a new training scheme for transformer-based ReID is proposed to actively extends the utility of the relative positional embedding (RPE) in capturing the degree of positional relevance between patches containing the body parts. The training scheme includes estimation of a form of distribution matrix, which represents the topological and positional properties of body parts by integrating the RPEs from all attention heads, and introduction of Jensen-Shannon divergence loss to reflect the properties. In a set of experiment conducted for five popular person ReID benchmark datasets, the proposed scheme brings promising improvement in both mAP and rank 1 score. An additional comprehensive ablation study demonstrates the effect of each component of the proposed scheme and the efficacy of the parameter choice.
more