딥 러닝 응용을 위한 CXL 메모리 관리 및 프리페칭 기법
CXL Memory Management and Prefetching Scheme for Deep Learning Applications
- 주제어 (키워드) CXL , 딥 러닝 , 메모리 대역폭/용량 확장 , 거대 인공지능 , 메모리 주소 변환 , 캐시 프리페칭 , 캐시 적중률 , CXL , deep learning , memory bandwidth/capacity expansion , hyperscale AI , memory address translation , cache prefetching , cache hit rate
- 발행기관 서강대학교 일반대학원
- 지도교수 이혁준
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000076343
- UCI I804:11029-000000076343
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Recently, with the development of artificial intelligence technologies, the complexity of deep learning algorithms and the demand for computational power have increased rapidly [1]. However, when using models with a large amount of data, there can be a memory bottleneck issue due to the limited memory capacity[2]. This highlights the need for additional memory capacity for deep learning application. Therefore, this paper proposes an extended memory system based on CXL (Compute Express Link) interface which can expansion memory capacity and accelerate deep learning applications. CXL is an interconnect technology that ensures high-speed communication between processors, memory, and accelerators. The extended memory connected via CXL has faster access speed than NVM and SSD but slower than local main memory. This paper suggests weights data allocation to CXL memory for memory bandwidth/capacity expansion in deep learning applications. To address CXL memory access latency issue, a new prefetching method is proposed to overcome the limitations of existing prefetching methods. The proposed prefetching method shows maximum cache hit rate improvement of 45% compared to existing systems and also demonstrates high efficiency in terms of prefetching cost.
more초록 (요약문)
최근 인공지능 알고리즘 기술의 발전으로 딥 러닝 알고리즘의 복잡성과 이에 요구되는 데이터 연산 처리량이 급증하였다[1]. 한편, 데이터 처리량이 매우 큰 모델을 사용할 경우, 컴퓨터 시스템의 제한된 메모리 용량으로 인해 딥 러닝 학습/추론 속도가 저하되는 메모리 병목 현상이 발생할 수 있다.[2] 이러한 메모리 병목 현상은 모델 학습 및 추론 시 추가적인 메모리 용량 확보의 필요성을 보인다. 따라서, 본 논문은 CXL(Compute Express Lik)[5] 기술 기반으로 기존 메모리 시스템의 메모리 용량 확장을 구현하고 딥 러닝 어플리케이션을 가속화하는 확장 메모리 시스템을 제안한다. CXL은 프로세서와 메모리, 가속기 간 고속 통신을 보장하는 인터커넥트 기술으로, CXL로 연결된 확장 메모리는 NVM, SSD보다는 빠르고 로컬 메인 메모리보다는 느린 접근 속도를 가진다. 본 논문에서는 메모리 대역폭을 높이기 위해 딥 러닝 연산 시 사용되는 가중치 데이터를 확장 메모리에 할당하는 것을 제안하고 이때 발생하는 메모리 접근 시간 지연 문제를 해결하기 위해 기존의 프리페칭 방식의 한계를 극복하는 새로운 프리페칭 방식을 제안한다. 본 논문에서 제안한 프리페칭 방식은 기존 시스템과 비교했을 때 최대 45%의 캐시 적중률 개선을 보여주며, 프리페칭 비용 측면에서도 높은 효율성을 보인다.
more