검색 상세

피처 콘트라스트 조절로 향상된 딥러닝 기반의 Human pose estimation

Improving Deep Learning-based Human Pose Estimation with Feature Contrast Adjustment

초록/요약

최근 몇 년 사이 Human pose estimation에 관련된 수많은 연구들이 진행되어 왔다. 대부분의 연구들이 일반적인 상황에서는 에러 없이 결과를 추출하지만 예외적으로 특정 부위가 가려진 상황(occlusion situation)이나 여러 사람들이 겹쳐 있는 상황 등의 결과 예측에는 많은 한계들을 보여왔다. 이를 해결하기 위하여 이러한 상황을 시뮬레이션 하는 학습 방법을 쓰거나 Object detection이나 Image segmentation의 알고리즘을 적용하는 등 다양한 연구가 진행되어 왔다. 본 연구에서는 이러한 문제를 해결함에 있어서 기존의 연구들보다 높은 성능을 도출하기 위해 Hourglass network[1]를 기반으로 새로운 네트워크를 제안한다. 이미지 대비(image contrast)를 조절하고 이미지 개선(image enhancement)을 시켰을 때, 대상(target)이 되는 물체가 이미지 안의 다른 주변 물체나 배경에 비해서 더 강조(attention)되는 효과를 가지게 된다. 이러한 효과가 Object detection이나 Image segmentation 연구에 향상된 결과를 가져온다는 점에 착안하여 이러한 아이디어를 새로운 네트워크에 적용하고자 하였다. 우선 Instance normalization을 제안한 네트워크 안에 적용하여 피처맵(feature map)의 밝기(brightness)와 대비(contrast)를 조절한다. 다음으로 좌표(coordinate) 관련 문제해결을 도울 Positional encoding 방법의 일환인 Coord convolution을 적용하였다. 마지막으로 이 연구에서 새롭게 제안한 Contrast branch를 통해 최종 결과에 강조 효과를 주었다. 본 연구에서는 MPII Dataset으로 실험한 결과 PCK 지표상 Hourglass network[1] 보다 좋은 성능을 보임을 확인할 수 있었다. 또한 육안상으로도 기존 Hourglass network[1]보다 향상된 결과를 볼 수 있었다.

more

초록/요약

A lot of work related to Human pose estimation are progressed in recent years. It usually had no errors in general situations. But there are some limitations in the situations like certain part of the body is occluded or more than 2 people are overlapped. To solve this problem, Recent works tried to use a specific training method which could simulate that situation. And also tried to apply object detection and image segmentation algorithms to Human pose estimation. In this work, I proposed a new network based on the Hourglass network[1] to solve this problem and make a network with better performance than previous works. When the contrast of the image is adjusted and the image is enhanced, the target object is to get an attention compare to other surrounding objects or background. Knowing that this effect helped to improve the results of object detection and image segmentation works, this work tried to apply this idea to a new network. First this work used instance normalization in the proposed network to adjust the brightness and contrast of feature map. Second tried to apply Coord convolution which is part of the method of positional encoding, to solve the coordinate-related problems. Finally, tried to give an attention effect to final results through a newly proposed contrast branch. As a result of testing with the MPII Dataset, Proposed network could get a higher PCK index and visually improved compare to the Hourglass network[1]

more