Deep Learning-based Dynamic Time-Division ISAC Beamforming for Vehicular Networks
- 발행기관 서강대학교 일반대학원
- 지도교수 소재우
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000082409
- UCI I804:11029-000000082409
- 본문언어 영어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
본 논문은 차량 네트워크 환경의 통합 센싱 및 통신(ISAC; Integrated Sensing and Communications) 시스템에서 시간 자원 할당과 전송 빔포밍 벡터를 동시에 결 정하는 딥러닝 기반의 동적 시분할 빔포밍 기법을 제안한다. 먼저, 최소 통신 합전 송률 제한사항을 엄격히 지키면서 각도 및 거리 추정에 대한 정확도 지표인 크래 머-라오 하한(CRLB; Cramér-Rao Lower Bound)을 최소화하는 문제를 정의한다. 해당 문제의 비볼록성과 환경의 시변성을 고려하여, 기존의 수학적 해법 대신 근 사 정책 최적화(PPO; Proximal Policy Optimization) 알고리즘 기반의 심층 강화학 습(DRL; Deep Reinforcement Learning) 에이전트를 설계한다. 본 연구에서 DRL 에이전트는 실시간 차량 이동성에 따라 무선 채널 상태 관측값을 시분할 비율 및 빔포밍 벡터의 적응형 조절값으로 매핑하는 제어 정책을 학습한다. 시뮬레이션 결과, 제안하는 기법은 전송율을 극대화하는 기존의 최대 전송율(MRT; Maximum Ratio Transmission) 빔포밍을 적용한 고정 시분할 전략보다 우수한 성능을 보이 며, 특히 요구되는 통신 합전송률 제약 조건을 만족시키면서도 높은 센싱 정확도 를 달성함을 보였다.
more초록(요약문)
This paper proposes a deep learning-based dynamic time-division beamforming scheme to jointly determine the time resource allocation and transmit beamforming vectors for Integrated Sensing and Communications (ISAC) in vehicular networks. This study formulates a problem to minimize the Cramér-Rao Lower Bound (CRLB) for angle and range estimation while strictly satisfying minimum communication sum-rate requirements. This study uses a deep reinforcement learning (DRL) agent based on the Proximal Policy Optimization (PPO) algorithm rather than conven- tional mathematical solutions, to overcome the non-convexity of the problem and the temporal variation of the environment. The proposed DRL agent learns a con- trol policy that maps real-time observations of vehicle mobility states directly to adaptive adjustments of the time-division factor and beamforming vectors. Simula- tion results demonstrate that the proposed method outperforms fixed time-division strategies employing conventional Maximum Ratio Transmission (MRT) beamform- ing, showing high sensing accuracy while satisfying the required communication sum-rate constraints.
more목차
1 Introduction 1
2 System Model 4
2.1 System Description 4
2.2 Channel Model 5
2.3 Signal Model 6
2.3.1 Time-Division Operation 6
2.3.2 Communication Phase 7
2.3.3 Sensing Phase 8
2.4 Performance Metrics 8
2.4.1 Communication Performance Metric 9
2.4.2 Sensing Performance Metric 10
3 Proposed ISAC Beamforming Scheme 12
3.1 Problem Formulation 12
3.2 MDP Modeling 15
3.3 PPO-Based Learning 17
3.4 Training Procedure 18
4 Simulation Results 20
4.1 Simulation Setup 20
4.1.1 Mobility Scenarios 21
4.1.2 Baselines and Evaluation Metrics 23
4.2 Static Time-Division Policies Versus DTD Beamforming 24
4.2.1 Angle and Range CRLB Comparison 24
4.2.2 Sensing–Communication Tradeoff 25
4.3 Learned Time-Division Across Mobility Scenarios 26
4.3.1 Distribution of Sensing Fractions 26
4.3.2 Temporal Evolution of ρ and Performance 27
4.4 Discussion 28
5 Conclusion 31
Bibliography 33

