검색 상세

이기종 GPU 클러스터 환경에서 딥러닝 모델의 GPU 처리율 차이를 고려한 하이퍼 파라미터 최적화 가속 연구

GPU-Aware Scheduling Framework for Hyper Parameter Optimization Acceleration in Heterogeneous GPU Cluster

초록/요약

딥러닝의 인기가 날로 증가함에 따라, 다양한 분야에서 딥러닝은 널리 사용되고 있다. 딥러닝의 수요 증가에 따라 GPU 자원의 수요도 증가하여 자원 관리를 위해 공용 GPU 풀 (pool)을 구축하고 Kubernetes 같은 클러스터 매니저를 통해서 이를 관리한다. 한편, GPU의 빠른 발전으로 자연스럽게 클러스터에는 다양한 GPU 종류가 존재하게 되었다. 하지만, 기존의 클러스터 매니저는 기존의 이기종 환경을 고려하지 않아 딥러닝 모델마다의 GPU 간의 처리율 차이를 고려하지 않아 하이퍼 파라미터 최적화 과정의 효율성이 떨어지는 문제가 있다. 본 논문은 이기종 클러스터 환경에서의 위의 문제를 해결하기 위해 딥러닝 모델의 GPU 간의 처리율을 고려한 GPU 컨테이너 기반의 선점형 스케줄링 프레임워크 Hermes-V2를 제안한다. Hermes-V2는 같은 딥러닝 모델 작업의 GPU 처리율 차이 경향성이 동일하다는 것을 기반으로 딥러닝 작업의 GPU에서의 처리율을 예측한다. 이를 바탕으로 작업의 GPU 처리율이 큰 GPU에 배치하여 하이퍼 파라미터 최적화 과정을 가속한다. 하이퍼 파라미터 최적화 과정 가속을 평가하기 위해 본 논문은 Kubernetes 클러스터 환경에서 CIFAR-10 데이터 세트에 대해 Hermes-V2를 선행 연구 Hermes의 프레임워크 위에서 단순 균등 배치와 비교하여 하이퍼 파라미터 최적화 실험을 진행했다. 실험 결과, Hermes-V2는 하이퍼 파라미터 최적화 과정을 최대 16% 단축했다.

more

초록/요약

As the popularity of deep learning (DL) increases day by day, DL is widely used in various fields. As the demand for DL increases, the demand for GPU resources also increases. Many user build (shared) GPU pool for management through cluster manager such as Kubernetes. With the rapid development of GPUs, various GPUs naturally exist in clusters. However, there is a problem that the existing cluster managers such as Kubernetes, Mesos don't consider the GPU heterogeneous environment which causes the throughput (e.g. images/sec) difference between GPUs. In addition, the throughput difference between GPU is various on DL model. This could be lead to cause inefficiency in the hyper parameter optimization. To solve this problem, this paper proposes a GPU container-based preemptive scheduling framework Hermes-V2 that considers the throughput difference between GPUs and DL model in GPU heterogeneous cluster environments. Hermes-V2 can predict the throughput of a DL job in each GPU based on the fact that throughput trend is the same in the same DL model. Hermes-V2 give higher priority on a GPU that has higher throughput to accelerate hyper parameter optimization. In order to evaluate the acceleration of the hyper parameter optimization, this paper use CIFAR-10 dataset in the Kubernetes cluster environment with comparing Hermes-V2 with fairness placement on the framework of the Hermes which is previous work. As a result, Hermes-V2 shorten the hyper parameter optimization by up to 16%.

more