검색 상세

Keypoint metric learning for one-shot action recognition

초록/요약

본 논문은 키포인트 추정을 통해 계산된 골격 정보를 2D 이미지로 변환한 데이터를 통해 키포인트에 최적화 된 합성곱 신경망(Convolutional Neural Networks; CNN)을 메트릭 학습(metric learning)을 통한 원 샷 학습(one-shot learning) 아키텍쳐를 제안한다. 영상 데이터를 통해 학습하는 행동 인식 알고리즘은 여러가지 문제점이 존재한다. 첫째로는 영상 학습에 필요한 데이터 취득 및 가공의 어려움이다. 우리는 이러한 데이터 취득의 문제를 해결하기 위해 one-shot metric 학습을 행동인식에 적용한다. 또한 영상 데이터는 시간 정보를 포함한 3차원의 데이터 처리를 필요로하여 모델의 복잡성과 매개변수의 증가를 가져온다. 이것은 우리가 목적으로하는 인간의 움직임 정보, 즉 키포인트 관절 정보를 2D 이미지 데이터로 가공하여 2D CNN 네트워크에 적용시켜 해결한다. 이렇게 만들어진 CNN을 통해 생성된 특징 좌표를 분류할 분류기와 임베딩 인코더를 통해 배치된 임베딩 공간 (embedding space)에서 가장 가까운 이웃 (nearest neighbor)이 가장 유사한 동작으로 정의 된다. 이 논문의 주요 기여는 CNN에 학습하기 위한 높은 레벨의 3D 관절 이미지 생성 방법, 그리고 키포인트의 특성을 잘 학습하기 위한 포즈 추정 모델 기반의 CNN 모델이다. 우리는 기존 연구들에서 사용되던 관절 이미지 생성 방법보다 우리의 높은 레벨 관절 이미지 생성이 모델에 보다 구체적인 정보를 제공하여 학습 효율을 높이고, 키포인트 추정에 사용한 모델 중 일부를 관절 이미지 학습 CNN에 사용하는 것이 좋은 성능을 보여줌을 설명한다.

more