분산 환경에서의 LLM 성능 평가 자동화를 위한 플랫폼 시스템 연구
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 김영재
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000082038
- UCI I804:11029-000000082038
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
대규모 언어 모델(LLM)은 뛰어난 성능으로 인공지능 분야에서 주목 받고 있다. 이에 따라 LLM 평가의 중요성이 커지고 있으며, 다양한 벤치 마크가 제안되고 있다. 그러나 LLM 을 위한 벤치마크는 생성 및 확산 속도가 빠르며, 평가 방법론 또한 파편화되어 있어, 이를 적용하는 과정에서 LLM 평가 프로세스가 복잡해지는 경향이 있다. LLM 학습 중 평가를 위한 반복적인 작업 또한 AI 연구자 및 개발자에게 부담이 된다. 본 연구에서는 이러한 문제를 해결하고자, LLM 학습부터 평가까지의 전 과정을 자동화하고, 평가를 위한 준비 절차 및 결과를 중앙에서 통합 관리할 수 있는 플랫폼 시스템을 제안한다. 제안된 플랫폼은 벤치마크 데이터셋, 실행 환경, 평가 결과를 통합적으로 관리하며, 간단한 설정으로 학습 과정에서 저장된 체크포인트를 자동으로 감지하여, 벤치마크를 즉시 실행할 수 있도록 설계하였다. 또한 체크포인트 구성을 분석하여 목적에 따라 데이터를 분리 관리함으로써 스토리지 자원의 효율성을 향상시켰다. 실험 결과, 제안하는 플랫폼은 학습부터 평가까지의 프로세스 중 약 67%를 자동화하여 AI 연구자의 평가 효율성을 높였으며, 모델이 저장된 시점부터 평가가 실행되기까지의 시간을 9초 이내로 단축되었다. 체크포인트 이중 스냅샷 관리 전략을 통해 디스크 사용률을 52% 절감시키는 등 스토리지 효율성에서도 우수한 성능을 보였다.
more초록 (요약문)
Large Language Models (LLMs) have attracted significant attention in the field of artificial intelligence due to their outstanding performance. As a result, the importance of evaluating LLMs has increased, and a variety of benchmarks have been proposed. However, the rapid proliferation of benchmarks and the fragmentation of evaluation methodologies add complexity to the evaluation process. In addition, repetitive evaluation tasks during LLM training impose a significant burden on AI researchers and developers. To address these challenges, this paper proposes a platform system that automates the entire process from LLM training to evaluation while providing centralized management of evaluation preparation procedures, benchmark datasets, execution environments, and evaluation results. The platform is designed to automatically detect checkpoints saved during training with minimal configuration, thereby enabling immediate execution of benchmark evaluations. Furthermore, by analyzing checkpoint structures and separating data based on usage purpose, the system enhances the efficiency of storage resource utilization. Experimental results demonstrate that the proposed platform automates approximately 67% of the training-to-evaluation process, significantly improving evaluation efficiency for AI researchers. The latency from checkpoint detection to benchmark execution was reduced to less than 9 seconds. In addition, a dual-snapshot checkpoint management strategy reduced disk usage by 52%, highlighting the platform’s effectiveness in terms of storage efficiency.
more목차
제 1 장 서론 1
제 2 장 연구 배경 및 관련 연구 4
제 1 절 연구 배경 및 필요성 4
제 2 절 관련 연구 8
(1) LLM 벤치마크 8
(2) 쿠버네티스 10
(3) Transformers 12
제 3 장 평가 자동화 플랫폼 설계 13
제 1 절 플랫폼 설계 개요 13
제 2 절 로그 자동 수집 16
제 3 절 벤치마크 자동 실행 18
제 4 절 벤치마크 결과 관리 21
제 5 절 체크포인트 이중 스냅샷 자동화 관리 21
제 6 절 평가자동화 플랫폼 구현 25
제 4 장 실험 및 평가 31
제 1 절 자동 벤치마크 수행 지연시간 측정 32
제 2 절 LLM 평가 속도 34
제 3 절 자동 모델 관리 디스크 사용량 측정 36
제 4 절 제안 플랫폼의 자동화 비율 검토 38
제 5 장 결론 및 추가 연구 방향 42
참고문헌 43

