검색 상세

클라우드 환경에서 딥러닝 하이퍼 파라미터 최적화 가속을 위한 GPU 스케줄링 프레임워크

GPU Scheduling Framework for Accelerating Deep Learning Hyper Parameter Optimization in a Cloud

초록/요약

딥러닝은 주어진 입력 데이터에 대한 예측값을 얻는 것으로 사용자는 예측값을 계산하기 위한 딥러닝 모델을 구성한다. 이러한 딥러닝 모델의 예측 정확도는 하이퍼 파라미터라고 불리는 변수들의 초기 설정값에 크게 영향받는다. 그래서 사용자들은 딥러닝 모델에 다양한 하이퍼 파라미터 조합을 적용해서, 모델의 정답 예측도를 최대화해주는 최적의 파라미터 조합을 찾는 하이퍼 파라미터 최적화 과정을 수행한다. 사용자가 클러스터 매니저를 사용해서 다양한 하이퍼 파라미터 조합들을 충분히 오랫동안 학습시켜야 하는 하이퍼 파라미터 최적화 작업을 수행할 경우, 모든 조합들이 GPU에서 순차적으로 학습되고 난 후에 학습 결과를 피드백 받기 때문에, 최적화에 매우 오랜 시간이 걸린다. 본 논문에서는 클러스터 환경에서 하이퍼 파라미터 최적화를 효율적으로 수행하기 위해, GPU 시분할 공유와 마이그레이션를 통해 하이퍼 파라미터 최적화 작업을 병렬화한다. 그리고 이를 통해 각 작업의 피드백 속도를 높여 최적의 하이퍼 파라미터 조합을 빠르게 찾는 GPU 스케줄링 프레임워크 Hermes에 대해 소개한다. Hermes는 전통적인 클러스터 매니저에 비해 피드백 속도를 3.9배까지 상승시켰다.

more

초록/요약

Deep learning is to get predictions for a given input data from a deep learning model. The prediction accuracy of the deep learning model is greatly influenced by the initial set values ​​of variables called hyper- parameter. So, users apply various hyper-parameter combinations to the deep learning model, and perform the hyper-parameter optimization to find the optimal parameter combination that maximizes the correct answer predictability of the model. When the user uses the cluster manager to perform a hyper-parameter optimization in which various hyper-parameter combinations have to be trained for a long enough time, the training results are feedback after all the combinations are sequentially trained on the GPU. So optimization takes a very long time. In this paper, the hyper-parameter optimization is parallelized through GPU time-sharing and migration. And we introduce Hermes that quickly finds optimal hyper-parameter combinations by speeding up the feedback of each combination. Hermes increased the feedback rate by 3.9 times compared to the traditional cluster manager.

more