검색 상세

SDN 환경에서 심층강화학습을 활용한 오버레이 네트워크 설계

Overlay Network with Deep Reinforcement Learning based Routing on SDN

초록

네트워크에 연결되는 장치들이 다양해지고 그 수와 트래픽이 증가하면서, 네트워크 자원을 효율적으로 사용하려는 트래픽 엔지니어링에 대한 관심이 높아지고 있다. 전통적인 트래픽 엔지니어링은 수학적 알고리즘 기반의 프로토콜을 적용하고, 네트워크 운영자가 트래픽을 분석 후 프로토콜의 가중치를 조정하는 등의 과정을 통해 수행된다. 하지만 복잡하게 연결되고 동적으로 변화하는 네트워크를 운영자가 최적화하는 것은 매우 어려운 일이다. 이에 머신러닝으로 트래픽 엔지니어링 문제를 해결하려는 연구가 이어지고 있다. 본 연구에서는, SDN 환경에서 오버레이 네트워크를 구성하고 심층강화학습 기반 라우팅 프로토콜을 적용하는 아키텍처를 제안한다. 일부 노드만 참여하는 오버레이 네트워크에만 심층강화학습을 적용하여, 기존 연구 대비 확장성 문제를 완화하여 활용도를 높인 적용 방안이다. SDN 환경에서 네트워크 상태정보를 수집하고, 심층강화학습으로 최적 경로를 탐색하여 적용하기 위한 SDN 어플리케이션들을 설계하였다. 네트워크의 요구사항을 강화학습의 Reward 형태로 부여하면, 심층강화학습이 이를 최대화하는 방향으로 학습하고 경로를 탐색한다. 네트워크 트래픽 부하가 랜덤하게 변화하는 NSFNet 토폴로지에서, 4개의 노드로 구성된 오버레이 네트워크에 심층강화학습 기반 라우팅 프로토콜을 적용하여 기존 OSPF 프로토콜과 성능을 비교하였다. 딜레이 기반의 Reward를 부여한 경우 OSPF 대비 성능이 향상되었으며, 처리량 기반의 Reward를 부여한 경우에는 유사한 성능을 확인하였다. 또한 OSPF는 특정 네트워크 환경에서 성능이 낮아지는 문제점이 있었으나, 심층강화학습 기반 라우팅은 학습되지 않은 환경에서도 OSPF 대비 성능이 좋은 경로를 탐색하는 것으로 확인되었다.

more

초록

As network connected devices and network traffic grow, interest in traffic engineering to use network resources efficiently is increasing. Traditional traffic engineering is performed through processes such as applying mathematical algorithm based protocols, and modifying weight in the protocols based on the traffic analysis result by network operators. However, it is very difficult for operators to optimize complex and dynamically changing network. Accordingly, there are many studies to solve traffic engineering problems with machine learning technology. In this paper, we propose an architecture that constructs an overlay network in SDN with deep reinforcement learning based routing protocol. It is a use case by mitigating scalability problems compared to similar studies by applying deep reinforcement learning only to the overlay network. We designed SDN applications for collecting network state information and exploring optimal path between overlay node pairs. Deep reinforcement learning tries to find the path that maximizes the reward designed based on the network requirements. In an NSFNet topology which traffic load changes randomly and has the overlay network with 4 nodes, we compare the performance of deep reinforcement learning based routing with traditional OSPF protocol. Deep reinforcement learning based routing shows better performance than OSPF with delay based reward, and shows similar performance with throughput based reward. In addition, OSPF shows low performance in a specific network state, but deep reinforcement learning based routing tries to find the optimal path in the given network state and shows better performance even in not-trained(unexperienced) network state.

more