네트워크 가상화 환경에서 MVNO 수익 극대화를 위한 TD3 기반 대역폭 동적 가격 결정 기법
TD3-Based Dynamic Bandwidth Pricing for MVNO Revenue Maximization in a Network Virtualization Environment
- 주제(키워드) 네트워크 가상화 , 대역폭 할당 , 심층 강화학습 , 게임이론 , 슈타켈버그 게임 , Network virtualization , bandwidth allocation , deep reinforcement learning , Twin Delayed Deep Deterministic policy gradient algorithm (TD3) , game theory , Stackelberg game
- 발행기관 서강대학교 일반대학원
- 지도교수 김승욱
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000082326
- UCI I804:11029-000000082326
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
네트워크 가상화 기술은 5G 네트워크 발전과 함께 비디오 스트리밍, 자율 주행, 스마트 팩토리 등 다양한 네트워크 요구 사항에 맞춰 동작하기 위해 각 광받고 있으며, 이에 대응하기 위해 수요, 공급 변동을 실시간으로 반영해 자 원 효율성을 높이기 위한 대역폭 동적 가격 결정의 중요성이 대두되고 있다. 그러나 기존 정적, 규칙 기반 가격 결정 방법은 네트워크 상태 변화와 다양한 서비스 요구사항에 유연하게 대처하지 못하는 한계가 있다. 이런 문제를 해결 하기 위해 실시간 네트워크 상태를 반영하여 가격을 동적으로 결정하는 강화 학습 기반 동적 가격 결정 기법이 필요하다. 본 논문에서는 슈타켈버그 게임 이론을 적용하여 가상 이동 통신망 사업자를 리더로, 사용자를 팔로워로 설정 함으로써 제공자와 사용자간 계층적 의사결정 구조를 모델링했다. 제공자는 Twin delayed deep deterministic policy gradient (TD3) 알고리즘 기반의 심 층 강화학습 모델을 설계하여 네트워크 가상화 환경에서 대역폭 동적 가격 결 정 기법을 제안했으며, 사용자는 제시된 가격을 기반으로 효용함수가 최대가 되는 대역폭 구매 기법을 설계했다. 제안 기법의 우수성을 증명하기 위해 Deep Q-learning (DQN) 기반 동적 가격 결정 모델과 고정 가격 정책과 비 교했다. 그 결과 제안하는 기법은 가상 이동 통신망 사업자의 평균 보상은 가 장 우수한 결과를 달성했으며, 사용자 효용의 변동성도 낮은 결과를 보였다.
more초록(요약문)
With 5G network development, network virtualization has seen increasing use, as it enables operation adapted to diverse requirements such as video streaming, autonomous driving, and smart factories. In this context, dynamic bandwidth pricing that reflects real-time demand- supply fluctuations is increasingly important for improving resource efficiency. However, conventional static, rule-based pricing limits to adapt to changing network states and diverse service needs. To overcome this issue, I propose a reinforcement learning based dynamic pricing approach that sets prices from real time network information. In this thesis, I formulate the interaction between a mobile virtual network operator (MVNO) and users as a Stackelberg game, where the MVNO posts prices and users purchase bandwidth to maximize utility. I train the leader’s pricing policy with a Twin Delayed Deep Deterministic Policy Gradient (TD3) agent adapted to the network environment. To demonstrate the method’s superiority, I compare it with a Deep Q-learning (DQN)-based dynamic pricing model and a fixed price policy. The method acquires the highest average MVNO reward and lower variability in user utility.
more목차
목 차i
표 및 그림 목차..ii
요 약iii
제 1장 서론.1
1.1 관련 연구.4
1.2 본 논문의 기여도6
제 2장 연구 배경9
2.1 직교 주파수 분할 다중 방식9
2.2 행위자-비평가 (Actor-Critic)기반 강화학습11
2.3 Twin Delayed Deep Deterministic policy gradient algorithm 16
2.4 게임 이론18
제 3장 제안 기법...20
3.1 네트워크 구조.20
3.2 제안 모델26
제 4장 성능 평가36
4.1 실험 환경.36
4.2 성능 검증.38
제 5장 결론.45
참고 문헌46

