검색 상세

고성능 빅데이터 분석 환경에서 Object-based Computational Storage를 활용한 Query Pushdown 기법 연구

Query Pushdown Strategies for High-Performance Big Data Analytics Using Object-based Computational Storage

초록 (요약문)

대규모 데이터 분석 환경에서는 확장성과 가용성 측면에서 우수한 오브젝트 스토리지가 disaggregated 아키텍처 위에 구성되어 널리 사용된다. 그러나 계산와 스토리지를 분리한 disaggregated 아키텍처에서는 연산에 필요한 데이터를 네트워크를 통해 전송해야 하므로, 과도한 데이터 이동이 심각한 성능 병목으로 작용한다. 이를 완화하기 위한 전략으로 query pushdown 기법이 제안되어 왔지만 MinIO, S3 Select 등 기존 의 오브젝트 스토리지 솔루션들은 단순 필터링 연산만을 제한적으로 지원하며, 복잡한 분석 워크로드에 활용되기에는 부족하다. 본 논문에서는 범용 분산 SQL 엔진인 Presto와, 복잡한 SQL 연산의 스토리지 내 실행을 지원하는 SK hynix의 Object-based Computational Storage (OCS)를 통합하는 프레임워크를 제안한다. Substrait 기반 쿼리 표현과 gRPC 기반 통신을 활용하여 Presto–OCS 연동 커넥터를 설계하고, 쿼리 연산자 특성과 데이터 통계 정보를 기반으로 Pushdown 여부를 동적으로 판단하는 실행 경로를 구현하였다. 이러한 구조는 기존의 정적 구성 방식과 달리 실행 시점에 데이터 이동량 경감 효과를 평가하고, query pushdown이 성능상 유리한 경우에만 OCS로 오프로드함으로써 실행 효율을 극대화한다. 실험 결과, 과학 시뮬레이션 데이터셋을 활용한 분석 워크로드에서 최대 93.62% 의 지연 시간 단축을 달성하였다. 이를 통해, 본 연구는 계산형 오브젝트 저장소 기반의 Near-Data Processing과 동적 pushdown 기법이 고성능 SQL 분석 환경에서도 실용적으로 적용 가능함을 입증하였다.

more

목차

그림차례 6
표차례 7
1 서론 9
2 배경지식및연구동기 11
2.1 오브젝트 스토리지 기반 대규모 분석 환경과 그 한계 11
2.2 Query Pushdown 기법과 오브젝트 스토리지의 한계 12
2.3 계산 가능한 Object Storage의 등장 12
2.4 기존 빅데이터 분석 응용에서 Query Pushdown의 한계 13
2.5 연구 동기 15
3 설계및구현 17
3.1 Presto-OCS 통합 전체 구조 17
3.2 설계 원칙 19
3.3 Presto-OCS Connector 구현 방식 20
3.4 Dynamic Pushdown 23
4 실험결과 25
4.1 실험 환경 26
4.2 실험 데이터셋 및 쿼리 워크로드 26
4.3 실험 결과 및 분석 27
5 결론 31
참고문헌 33

more