클라우드 자원 특성을 활용한 2단계 아키텍처 기반의 비용효율적인 디스크 기반 GNN 학습 연구
Leveraging Cloud Resource Characteristics for Cost-Efficient Disk-based GNN Training via Two-Level Architecture
- 주제어 (키워드) 그래프신경망 , 클라우드컴퓨팅 , 시스템아키텍처 , 자원최적화 , Graph Neural Network , Cloud Computing , System Architecture , Resource Optimization
- 발행기관 서강대학교 일반대학원
- 지도교수 김영재
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079652
- UCI I804:11029-000000079652
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
그래프 신경망(Graph Neural Network, GNN)은 정점과 간선 사이의 관계와 그래프 수준의 특성을 학습하는, 그래프 구조 데이터를 처리하는 기계학습 모델이다. 최근 들어 1 TB 이상의 대규모 그래프 데이터 세트가 등장하면서, 데이터 세트의 크기는 단일 머신의 메모리 용량을 넘어섰다. 이에 따라 메모리에 모든 그래프 데이터를 적재하여 학습하는 기존의 방법은 더 이상 사용할 수 없게 되었으며, 이에 대한 해결책으로 스토리지를 메모리 확장으로 사용하는 디스크 기반 GNN 학습이 등장하였다. 이 접근법은 메모리 한계를 극복할 수 있는 장점을 제공하지만, 디스크 접근으로 인한 성능 저하라는 새로운 문제가 부각되었다. 이를 해결하기 위해 최근에는 디스크 기반 GNN 학습에서 디스크 I/O 병목을 줄이기 위한 다양한 연구가 진행되어 왔다. 그러나, 클라우드 환경의 독특한 특성으로 인해 디스크 기반 GNN 학습은 새로운 도전에 직면하였다. 일반적인 로컬 스토리지에 비해 매우 느린 클라우드 스토리지 I/O 속도는 전체 학습의 주요 병목이 되며, 사전 정의된 가상 머신은 사용자가 원하는 만큼의 메모리 크기, 대역폭, 최신 GPU 기술 등을 마음대로 이용할 수 없게 한다. 이에 따라 기존의 디스크 기반 GNN 학습 병목에 대한 연구 방법들은 클라우드에서 효과적으로 동작하지 않는다. 이를 극복하기 위해, 우리는 새로운 2단계 아키텍처를 통해 클라우드 환경에서 디스크 기반 GNN 학습을 비용효율적으로 가속하는 시스템인 MemoryBridge를 제안한다. MemoryBridge는 고가의 단일 GPU 자원을 사용하는 대신, 저렴한 GPU 자원을 학습 머신으로, GPU가 없는 메모리 자원을 원격 메모리 머신으로 활용한다. 이 아키텍처 하에서, MemoryBridge는 두 가지 모듈을 사용한다: 가장 비용효율적인 자원 조합을 추천하는 수학적 솔버와, 그래프 인식 고정 캐싱 및 배치 파이프라이닝 최적화를 구현한 디스크 기반 GNN 학습 프레임워크이다. 실험 결과, MemoryBridge는 AWS 클라우드 컴퓨팅 환경에서 기존 성능 대비 최대 32.7배의 속도를 보였으며, 다른 전략 대비 9.9배의 비용효율성을 보였다. 이는 클라우드 환경과 디스크 기반 GNN 학습의 조합에서 발생하는 독특한 문제점들을 효과적으로 처리하면서도 비용효율성을 달성함을 보여준다.
more초록 (요약문)
Graph Neural Network (GNN) is a machine learning model designed to process graph-structured data by learning relationships between vertices and edges, as well as graph-level characteristics. With the advent of large-scale graph datasets exceeding 1 TB, the dataset sizes have surpassed the memory capacity of single machines. Consequently, traditional methods that load entire graph data into memory are no longer viable, giving rise to disk-based GNN training, which leverages storage as a memory extension. While this approach overcomes memory limitations, it introduces a new challenge: performance degradation due to disk access. To address this, recent studies have explored various techniques to mitigate disk I/O bottlenecks in disk-based GNN training. However, disk-based GNN training faces new challenges in cloud environments due to their unique characteristics. Cloud storage I/O speed, which is significantly slower than local storage, becomes a major bottleneck in the overall training process, and pre-defined virtual machines prevent users from freely utilizing the desired memory size, bandwidth, and the latest GPU technology. Consequently, existing research methods for disk-based GNN training bottlenecks do not operate effectively in the cloud. To overcome these challenges, we propose MemoryBridge, a system that cost-effectively accelerates disk-based GNN training in cloud environments through a novel two-stage architecture. Rather than using a single expensive GPU resource, MemoryBridge utilizes an affordable GPU resource as a training machine and a GPU-less memory resource as a remote memory machine. Under this architecture, MemoryBridge employs two modules: a mathematical solver that recommends the most cost-effective combination of resources, and a disk-based GNN training framework that implements graph-aware fixed caching and batch pipelining optimization. Experimental results demonstrate that MemoryBridge achieves up to 32.7× speed improvement over existing performance and 9.9× higher cost efficiency compared to other strategies in AWS cloud computing environments. These findings show that the system effectively handles the unique challenges arising from the combination of cloud environments and disk-based GNN training while achieving cost efficiency.
more목차
1 서론 3
2 배경 8
2.1 GNN의 구조와 학습 8
2.2 클라우드 컴퓨팅 11
2.3 클라우드에서 디스크기반 GNN의 문제점 13
3 설계 및 구현 14
3.1 2단계 아키텍처 14
3.2 MemoryBridge 설계 17
3.2.1 개요 17
3.2.2 ClusterAgent 설계 18
3.2.3 RemoteGNN 설계 22
3.3 캐시 시스템 설계 25
3.4 구현 28
4 실험 및 평가 29
4.1 실험 방법 29
4.2 종단 간 학습 성능 평가 31
4.3 비용효율성 평가 33
4.4 캐싱 시스템 평가 34
5 관련 연구 36
6 결론 및 향후 연구 38
6.1 결론 38
6.2 향후 연구 39
참고문헌 41