SPARK CPU-GPU 이기종 환경에서 데이터 암호화를 위한 성능평가
- 주제어 (키워드) 아파치 스파크 , 스파크 CPU , 스파크 GPU , 데이터 암호화 , Apache Spark , Spark CPU , Spark GPU , Data encryption
- 발행기관 서강대학교 정보통신대학원
- 지도교수 김영재
- 발행년도 2022
- 학위수여년월 2022. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000066951
- UCI I804:11029-000000066951
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
국내 기업의 구조 중에는 지주사를 중심으로 여러 기업이 하나의 그룹을 이루는 그룹사 형태가 존재한다. 4차 산업 혁명 이후, 그룹사 내에 속한 기업들은 빅데이터에 대한 니즈가 증가하여, 그룹 내 데이터를 활용하기 위해 하나의 데이터 플랫폼으로 통합하고 있는 추세이다. 기업이 관리하는 데이터 중에는 개인정보도 포함되며, 데이터 3법이 개정됨에 따라, 데이터를 통합한 플랫폼에서 서로 다른 기업들의 데이터를 활용하기 위해서는 가명처리 과정이 필수적이다. 실무에서는 대용량 데이터를 처리하기 위해 인메모리 기반의 Apache Spark를 활용하고 있으며, 최근에는 GPU를 활용한 RAPIDS Accelerator for Apache Spark가 개발되어 데이터 처리 속도가 더욱 빨라지게 되었다. 하지만 Apache Spark로 여러 데이터 파일에 대한 암호화 처리를 수행할 때에는 CPU 및 GPU 자원을 적절히 분배하여 활용하는 것이 필요한데, 정립된 분배 방식이 없을 뿐 아니라, 그에 대한 연구도 부족한 실정이다. 본 논문에서는 Apache Spark 수행 전 최적으로 자원을 분배할 수 있는 2가지 기법을 설명하고, 실제 데이터 암호화 처리 업무에 활용하기 위해 해당 기법에 대한 검증을 수행하였다. 그 결과, 본 논문에서 제안하는 병렬 혼합 기법은 SPARK-CPU 대비 22.1%, SPARK-GPU 대비 14.5%, 순차 혼합 기법 대비 7% 연산 효율을 높인 것을 확인하였다.
more초록
Most conglomerates have a group structure consisting of several affiliates centered on a holding company. Individual companies belonging to the group company need to integrate their respective data sets into a single platform to facilitate the sharing between the companies. Personal information is also a kind of data set managed by most companies. In the revision of the Data 3 Act, it is essential to carry out a pseudonym process when one company accesses and utilizes any data set of different companies. Apache Spark-based in-memory has been widely used in many companies to process large amounts of data. Recently, Apache Spark (SPARK-GPU) utilizing GPU has been developed to speed up the data processing. This paper proposes a novel method to explore optimal resource distribution conditions before performing Apache Spark and verifies the performance in terms of processing time through actual data encryption tests. First, we measured the time required to preprocess encryption with CPU-based Apache Spark (SPARK-CPU) and SPARK-GPU for data files ranging from 2 million to 150 million. Based on these results, we established the rows of data being the criteria for selectively utilizing the two techniques and proposes a multi-device mixing method that SPARK-CPU and SPARK-GPU in parallel for the data encryption process. Also, results show the performance is improved through the data encryption tests up to 16.2% compared to SPARK-CPU, 14.5%, compared to SPARK-GPU, and 7%, compared to the single-device mixing method.
more