검색 상세

PostgreSQL 기반 Cloud 컴포넌트 활용에 따른 통합 MLOps 파이프라인 설계 및 최적화

Design and Optimization of an Integrated MLOps Pipeline Utilizing Cloud Components Based on PostgreSQL

초록

현재 기업들은 PostgreSQL 을 On-premises 환경에서 많이 사용한다. 그리고 기존의 시스템을 유지하면서 추가적으로 데이터 과학과 인공 지능 서비스를 하고자 한다. 비용과 시간을 최소화 하면서 인공지능 서비스를 도입하고 싶어 한다. 하지만 기존 RDBMS 로 부터 주기적으로 데이터를 추출하면 기존 시스템의 부하가 발생한다. 이를 피하기 위해 추가 장비를 구매하면 많은 비용이 발생하고 시간도 오래 걸린다. 그리고 어떻게 데이터를 관리 하며, 어떤 시스템 구조로 만들어야 하는지 모르는 실정이다. 본 연구는 PostgreSQL 기반 Cloud 컴포넌트를 활용한 통합 MLOps 파이프라인의 설계를 제안했다. 그리고 PostgreSQL 의 성능을 측정했다. IaC 도구를 이용한 ML 시스템 컴포넌트 구성 시간을 측정했으며, On-premises와 Cloud의 ML 시스템 구축 비용을 비교 하였다. 본 연구는 기존 ML 시스템과 현재 ML 시스템 구조를 보여주고, Cloud 기반 ML 시스템 구조 제안을 했다. 그리하여 ML시스템을 도입하려고 하는 개인과 조직에게 청사진을 제공했다. 그리고 PostgreSQL의 데이터베이스 성능과 특징 테스트를 진행 했다. 확장노드로 부터 데이터 추출이 다른 노드로의 부하 전달이 되지 않음을 확인했다. Cloud 에서 Single, Multi Scale-out 모두가 약 3분 정도 걸린다는 것을 확인 했다. IaC 도구를 활용하여 Cloud 에 MLOps 파이프라인 컨포넌트를 2분 내 구성할 수 있음을 확인 했다. 마지막으로 On- - VIII premises와 Cloud 환경에서 ML 시스템 구성 비용을 비교하였다. 장기적 상시 사용은 On-premises 환경 시스템 구축이 유리하였고, 단기적인 일회성 사용은 Cloud 환경이 저렴함을 입증하였다.

more

초록

Currently, many enterprises extensively utilize PostgreSQL in on- premises environments. They aspire to maintain their existing systems while additionally integrating services in data science and artificial intelligence. The goal is to adopt AI services while minimizing costs and time. However, periodic data extraction from existing RDBMS systems results in increased system load. Avoiding this issue by purchasing additional equipment incurs substantial costs and time. Furthermore, there exists a lack of clarity regarding effective data management and optimal system architecture design. This study proposes the design of an integrated MLOps pipeline utilizing PostgreSQL-based Cloud components. It also includes an assessment of PostgreSQL's performance. The construction time for ML system components using Infrastructure as Code (IaC) tools was measured, and a comparison of the costs for ML system establishment in on-premises and Cloud environments was conducted. This research presents a comparison between existing and current ML system architectures, proposing a Cloud-based ML system structure. It provides a blueprint for individuals and organizations looking to adopt ML systems. Performance and feature testing of PostgreSQL's database were carried out. It was verified that data extraction from expansion nodes does not transfer load to other nodes. The study confirmed that both Single and Multi Scale-out in the Cloud takes approximately 3 minutes. The use of IaC tools allows for the construction of MLOps pipeline components in the Cloud within 2 minutes. Finally, a cost comparison between on-premises and Cloud environments for ML system configuration revealed that long-term, continuous use is more cost-effective with on- premises systems, while short-term, one-time use is cheaper in Cloud environments.

more

목차

제1장 서론 1
제1절 연구 배경 1
제2절 연구 목표 1
제2장 배경지식 및 관련 연구 3
제1절 배경 지식 3
(1) PostgreSQL Database 3
(2) MLOps 6
(3) Cloud 환경에서 IaC 8
(4) Kafka 10
제2절 관련 연구 12
제3장 Cloud기반 ML 시스템 설계 및 구현 13
제1절 On-premises 기반 ML 시스템 구조 13
제2절 MLOps 기반 ML 시스템 구조 14
제3절 Kafka 를 활용한 ML 시스템 구조 15
제4절 PostgreSQL scale-out 구조와 절차 17
제5절 시나리오별 시스템 구조 19
(1) 시나리오 1 20
(2) 시나리오 2 22
(3) 시나리오 3 23
(4) 시나리오 4 24
제4장 테스트 및 결과 분석 26
제1절 기존 시스템에 부하를 주지 않는 확장 된 PostgreSQL 데이터 추출 시스템 성능 평가 26
제2절 PostgreSQL Scale out 성능 평가 29
제3절 Cloud 환경에서 IaC 를 활용한 Build-up Time 성능 평가 32
제4절 비용 평가 35
제5절 논의 36
제5장 결론 38
제1절 주요 결론 요약 38
제2절 연구 결과의 실용성 및 응용 방안 제안 38
참고 문헌 39

more