검색 상세

매니코어 기반 네트워크 프로세서에서 병렬 힙의 적응 관리를 통한 확장성 있는 대역폭 성형 기법

Scalable Bandwidth Shaping Scheme via Adaptively Managed Parallel Heaps in Many-core Based Network Processors

초록/요약

네트워크 프로세서 기반 라우터 및 스위치의 확장성 (Scalability)은 메모리 접근의 제한과 전력 소모에 큰 영향을 받는다. 토큰 버킷은 라우터 및 스위치의 출력 대기 행렬(Output Queue)마다 존재한다. 토큰 버킷의 주요한 기능은 네트워크 흐름의 대역폭 성형(Bandwidth Shaping)이다. 이는 많은 메모리 대역폭을 필요로 한다. 출력 대기 행렬의 수가 증가함에 따라, 토큰 버킷의 관리에 많은 자원이 이용되며, 이는 확장성의 제약이 된다. 본 논문은 메모리 접근과 전력 소모를 상당히 줄일 수 있는 확장성 있는 소프트웨어 기반의 토큰 버킷 관리 기법을 제안한다. 실시간 처리와 낮은 비용의 소모와 같은 제약 하에서, 본 논문은 매니코어 기반의 네트워크 프로세서 위에서 동작할 수 있는 새로운 병렬 힙(Heap) 자료 구조를 제안한다. 또한, 캐시 잠금 기법을 이용하여 힙의 처리 성능을 향상 시키고 예측 가능하게 만든다. 추가적으로, 제안한 소프트웨어 기법의 성능과 메모리 사용 양상을 확률적 모델링과 Lyapunov 중심 극한 정리(Central Limit Theorem)을 이용하여 정량적으로 분석한다. 마지막으로, 제안한 기법은 특정 출력 대기 행렬에 자주 접근하여 힙의 크기가 제한되는 비 정상적인 양상에 대해서 효과적인 적응 방안을 제시한다. 제안한 기법은 라우터 및 스위치에서 100Gbps의 네트워크 인터페이스를 백 만개의 대기 행렬(Queue)이 공유하는 상황에서 메모리 접근을 최대 수 천 배까지 줄일 수 있으며, 동시에 스트레스가 심한 시나리오에서도 안정성을 유지할 수 있다.

more

초록/요약

Scalability of network processor based routers/switches heavily depends on limitations imposed by memory accesses and associated power consumption. Bandwidth shaping of a flow is a key function which requires a token bucket per output queue and abuses memory bandwidth. As the number of output queues increases, managing token buckets becomes prohibitively expensive and limits the scalability. In this work, we propose a scalable software-based token bucket management scheme that can reduce the memory accesses and power consumption significantly. To satisfy real-time and low-cost constraints, we propose novel parallel heap data structures running on a many-core based network processor. By using cache locking, the performance of heap processing is enhanced significantly and more predictable. In addition, we quantitatively analyze the performance and memory footprint of the proposed software scheme using stochastic modeling and Lyapunov central limit theorem. Finally, the proposed scheme provides an adaptive method to limit the size of heaps in case of oversubscribed queues, which can successfully isolate the queues showing unideal behavior. The proposed scheme reduces the memory accesses by up to three orders of magnitude for one million queues sharing a 100 Gbps interface of the router/switch while maintaining stability under stressful scenarios.

more