검색 상세

DRAM 기반 이웃 노드 복제를 활용한 고장 허용 고성능 딥러닝 체크포인트 쓰기 캐시 설계

[Design of a Fault-Tolerant High-Performance Deep Learning Checkpoint Write Cache Utilizing DRAM-Based Neighbor Node Replication]

초록 (요약문)

대형 딥러닝 모델에 대한 관심이 날이 갈수록 커지고 있다. HPC 환경에서 대형 모델을 학습할 때, 계산 자원의 규모와 긴 학습 시간으로 인해 실패 빈도가 매우 높다. 이때, 받애한 체크포인트 크기와 모든 프로세스의 집약적 체크포인트 동시 읽기 및 쓰기 패턴이 공유 자원인 병렬 파일 시스템(PFS)을 대상으로한 체크포인트 생성 및 복구 비용을 가중시킨다. 한편, 세계 1위 슈퍼컴퓨터인 프론티어에서는 분산 딥러닝 시 I/O로 인한 PFS 병목을 개선하고 학습 성능을 향상시키기 위해 HVAC(High Velocity AI Cache)이라는 노드 로컬 스토리지 기반 분산 읽기 캐시 시스템을 도입해 운용 중이다. 본 연구에서는 읽기 전용 분산 캐시 시스템인 HVAC의 쓰기 기능을 확장하여 대형 딥러닝 모델을 위한 빠른 체크포인트 생성 및 실패 복구를 가능하게 하는 분산 체크포인트 시스템을 제안한다. 단순히 HVAC을 분산 체크포인트에 적용했을 때 세 가지 챌린지가 있다. 첫째, 노드 실패 시 HVAC 캐시 내 체크포인트 데이터가 손실된다. 둘째, 체크포인트 복제본을 캐시 내에 두더라도 잘못된 배치 정책은 노드 실패 시 데이터 손실을 막지 못하며, 체크포인트 파일의 전역 인덱스를 관리하기 어렵다. 셋째, HVAC 캐시 내 체크포인트 쓰기가 PFS로의 전역 영속화를 지연시켜 HVAC 캐시 내 복구 불가능한 실패 발생 시 복구를 느리게 만든다. 이를 해결하기 위해 본 연구에서는 1) 단일 노드 실패 시 HVAC 캐시 내 실패 복구를 보장하는 최적의 체크포인트 복제본 및 인덱스 배치 알고리즘, 2) 비동기 PFS 및 캐시 동시 쓰기 전략을 제안하였다. 성능 평가 결과, 제안된 시스템이 베이스라인 대비 1.8배 빠른 실패 복구를 지원한다.

more

목차

1 서론 10
2 연구배경 13
2.1 분산딥러닝 13
2.2 고성능컴퓨팅(High Performance Computing) 15
2.3 체크포인트-재시작메커니즘 15
2.4 관련연구 17
3 연구동기 19
3.1 분산모델학습시의실패복구 19
3.1.1 Frontier HPC 시스템에서의작업실패분석 19
3.1.2 방대한체크포인트크기 22
3.2 HVAC: High Velocity AI Cache 23
3.2.1 대규모딥러닝을위한분산캐시시스템 23
3.2.2 읽기전용시스템으로서의 HVAC의한계 24
3.2.3 고장허용기능의부재 26
3.3 기회와도전과제 27
3.3.1 CPU 메모리체크포인트의기회 27
3.3.2 체크포인트인덱스관리 28
3.3.3 데이터배치정책부재에따른데이터충돌문제 28
4 설계및구현 30
4.1 HVAC의아키텍쳐 30
4.2 CPU 메모리기반체크포인트레플리카 32
4.2.1 CPU 메모리기반체크포인트 32
4.2.2 Linear Probing 해시기반체크포인트복제 34
4.2.3 백그라운드 PFS 플러시 34
4.3 체크포인트데이터및메타데이터배치정책 34
4.3.1 체크포인트데이터배치및실패시나리오 36
4.3.2 복구시나리오 38
4.3.3 노드실패시복구시나리오 40
5 성능평가 41
5.1 실험환경 41
5.2 실험결과 42
5.2.1 복구시간분석 42
5.2.2 시간세분화분석 46
5.2.3 체크포인트시간분석 47
5.2.4 학습시간에미치는영향에대한분석 48
6 결론 49
참고문헌 50

more