검색 상세

인공신경망 응용을 위한 Multi-retention time MRAM 기반 메인 메모리 설계

Multi-retention MRAM based Main Memory design for NeuralNet Applications

초록 (요약문)

현대 인공지능 분야는 객체 감지, 음성 인식, 행동 감지 등 여러가지 분야에서 다양한 딥 러닝 모델이 생기며 높은 정확성을 갖고 있다. 그러나 딥 러닝의 발전은 점점 더 높은 연산량을 요구하고 많은 메모리 접근을 필요로 하기 때문에 기존의 범용 컴퓨터로 모델을 직접 추론하는 것은 비효율적이다. 이를 해결하기 위해 본 논문에서는 인공신경망 응용을 위한 다양한 보유 시간(Multi-retention time)을 갖는 MRAM 메인 메모리를 제안한다. 본 논문에서는 MRAM을 짧은 보유시간을 갖는 영역, 긴 보유시간을 갖는 영역으로 나누어 인공 신경망 응용에서 데이터의 재사용 거리가 짧은 활성화 데이터에 대하여 보유 시간이 짧은 MRAM 영역에 쓰는 메인 메모리를 제안한다. 본 논문에서 제안한 Multi-retention MRAM을 VGG16, RetinaNet, GCNet, Swin-S 네 가지의 인공신경망 응용 프로그램에 대해 메인 메모리의 대역폭을DRAM과 비교하였으며, 그 결과 DRAM 대비 약 14.5% 상승한 메모리 대역폭을 얻을 수 있었다.

more

초록 (요약문)

As applications using deep neural networks (DNN) are widely deployed in mobile devices, researchers explore various methods to provision low energy consumption and high performance. Recently, advances in NVMs such as STT-MRAM promise non-volatility, high performance, and low energy consumption when they replace DRAM in the main memory. Most of memory space used in DNN applications belong to weight and activation memories. Typically, the contents of weight memory are not changed in inference whereas the contents of activation memory are changed to store intermediate results among layers of DNN. As the mobile applications resort to frequent power-down to save battery energy, NVMs are perfect candidate to fully and partially replace DRAM in the main memory. In this work, we propose a multi-retention time MRAM based main memory that can be used in the mobile devices. We partitioned the MRAM memories into multiple partitions where each partition is implemented with different retention time targeting for DNN applications. In this scheme, weights of DNN can be mapped to high-retention time memory whereas activation can be mapped to low-retention time memory. To minimize the low retention time MRAM partition, we propose two techniques: intra-segment and inter-segment circular buffers to map DNN activation data (i.e. dynamically mapping virtual pages (streaming data) to the physical pages in circular fashion) to exploit short reuse distance of DNN activation data. These circular buffers are mapped to the low-retention MRAM partition as much as possible. Experiments show 14.5% improvement over DRAM in terms of performance.

more