가상화 클러스터 환경에서 하둡 맵리듀스 성능 향상과 비용 절약을 위한 부하분산 기법
Load Balancing Method for Improving Hadoop MapReduce Performance and Cost Reduction in Virtual Cluster Environment
- 주제(키워드) Hadoop , MapReduce , Xen , Virtualization
- 발행기관 서강대학교 일반대학원
- 지도교수 박성용
- 발행년도 2013
- 학위수여년월 2013. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000049507
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록/요약
Recently, as cloud computing service is widely used, existing physical cluster environment is gradually changing into virtual cluster environment. This environmental change affects Hadoop which is representative distributed processing platform running on the cluster. For this reason, there have been many research efforts to improve the performance of Hadoop MapReduce in virtual cluster environment. MapReduce can produce a result when all the tasks is finished. So, if completion time of each tasks is inequality, it adversely affect the performance of the MapReduce. In Hadoop, this uneven execution time is solved using a technique called speculative execution. However, this technique involves many problems. First, straggler tasks keep on occupying unsuitable node. Second, killed tasks lead to waste a resource of the entire cluster. In this paper, we propose a new load-balancing method for replacing existing speculative execution which has involved several problems in Xen-based virtual cluster. The proposed load-balancing method changes the completion time of all the task evenly by dynamically modifying parameters of the Xen Credit scheduler and value of process priority depending on the task execution time. We evaluate the performance improvement of proposed method on a small scale virtual cluster that consist of 12 virtual machines. On the virtual cluster, proposed method can change each task execution time relatively evenly than original Hadoop and straggler task execution time was reduced by 45 seconds along with total MapReduce execution time.
more초록/요약
최근 클라우드 컴퓨팅 서비스가 널리 이용되면서 기존 물리 클러스터 환경이 점차 가상화 클러스터 환경으로 변화하고 있다. 클러스터 환경의 변화는 그 위에서 동작하던 대표적인 분산처리 플랫폼인 하둡에도 영향을 미쳐 가상화 클러스터 환경에서 하둡 맵리듀스 성능향상을 위한 많은 연구가 진행되고 있다. 맵리듀스는 분산된 모든 태스크가 끝나야만 최종 결과를 도출할 수 있는 특징 때문에 각 태스크의 완료 시간이 불균등하면 전체 맵리듀스 성능에 악영향을 줄 수 있다. 하둡 맵리듀스에서는 이런 불균등한 수행시간을 추론적 실행이라는 기법을 이용하여 해결하지만 추론적 실행은 낙오자 태스크가 부적합한 노드에서 계속 점유할 수 있다는 점과 전체 클러스터의 자원 낭비를 유발하는 등 많은 문제를 내포하고 있다. 본 논문에서는 Xen 기반의 가상화 클러스터 환경에서 기존에 여러 문제점을 안고 있는 추론적 실행을 대체 할 수 있는 새로운 부하분산 기법을 제안한다. 제안한 부하분산 기법은 Xen Credit 스케줄러의 파라미터와 리눅스 스케줄러의 프로세스 우선순위 값을 태스크 수행시간에 따라 동적으로 변경하여 모든 태스크의 완료시간을 균등하게 한다. 실제로 12개의 가상머신으로 이루어진 작은 규모의 Xen 기반 가상화 클러스터 환경을 구축하고 제안한 기법의 성능을 측정한 결과, 각 태스크 수행시간이 기존 하둡보다 비교적 균등하게 바뀌었고 특히, 낙오자 태스크의 수행시간이 45초 감소하여 그만큼 전체 맵리듀스 수행시간이 감소하였다.
more

