강화학습 기반의 동적 무기 할당 문제
Dynamic Weapon-Target Assignment Problem Based on Reinforcement Learning
- 주제어 (키워드) 무기 할당 문제 , 조합 최적화 문제 , 혼합 정수 선형 프로그래밍 , 그리디 알고리즘 , 강화학습 , 딥 큐 네트워크 , 정책 기반 방법론; Weapon Target Assignment Problem , Combinational Optimization Problem , Mixed Integer Linear Programming , Greedy Algorithm , Reinforcement Learning , Deep Q-Network , Policy-Based Methods
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076913
- UCI I804:11029-000000076913
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
본 연구에서는 실시간 전장 시나리오 상의 결정 지원 시스템의 핵심인 무기 표적 할당(WTA) 문제를 다룬다. WTA 문제는 NP-Complete 문제로, 기존의 해결책으로 제시된 그리디 알고리 즘과 혼합-정수 선형 계획법(MILP)을 비교하여 실시간 할당에 그리디 알고리즘이 더 적절함을 탐구한다. 이 연구는 다중 무기, 탄약 수 등의 더 복잡한 시나리오가 될 수 있는 동적인 WTA 문제를 정의하고, 가치 기반 강화학습 Q-learning과 정책 기반 강화학습 REINFORCE를 적용 하여 그리디 알고리즘과의 성능을 비교한다. REINFORCE 적용 시 정보를 무기별로 전처리하고 무기별 신경망을 통해 할당하여 그리디 알고리즘을 능가하는 성능을 획득함을 보여준다. 이는 가변적인 위협 수준과 추가적인 작전 제약을 포함한 현실적인 무기 추천 시스템으로 발전시키 기 위한 기반을 마련한다. 후속 연구로는 더 많은 제약을 통합하여 제안된 모델을 정제하고 실제 적용 가능성에 집중할 것이다.
more초록
This study addresses the Weapon Target Assignment (WTA) problem, an important part of decision support systems in real-time battlefield situations. Known as an NP-Complete problem, the WTA is examined by comparing it with common solutions such as greedy algorithms for real-time assignments. The research handles a dynamic WTA problem involving more complicated cases with many weapons and bullets, and it compares the performances of Q-learning and policy-based reinforcement learning with greedy algorithms. In the application of REINFORCE, involving weapon-specific data preprocessing and individual neural networks for each weapon, demonstrates superior performance over the greedy algorithm. This thesis lays the foundation of the work for making a real weapon advice system that includes changing threat levels and extra operation constraints. Future studies will improve the model by adding more constraints and focus on how it can be used in more realistic situations.
more목차
제 1 장 서 론 1
1.1 연구 배경 1
1.2 논문의 구성 3
제 2 장 관련 연구 4
2.1 무기 할당 문제 (WEAPON-TARGET ASSIGNMENT) . 4
2.2 그리디 알고리즘 8
2.3 혼합 정수 선형 프로그래밍 10
2.4 그리디 알고리즘과 MILP 성능 비교 . 11
2.5 심층 신경망 기반의 강화 학습 . 15
2.5.1 DQN 16
2.5.2 REINFORCE . 16
제 3 장 무기 할당 문제의 강화 학습 적용 방법 . 18
3.1 동적 WTA 환경 설정 18
3.2 DQN 적용 방법 . 23
3.3 REINFORCE 적용 방법 . 24
3.3.1 기존의 REINFORCE 적용 방법 25
3.3.2 전처리 및 신경망 공유 REINFORCE 적용 방법 26
제 4 장 실험 및 결과 29
4.1 실험 환경 . 29
4.2 동적 WTA 환경에서의 그리디 알고리즘 실행 29
4.3 강화학습 기반 방법의 학습 및 결과 31
4.3.1 DQN 기반 무기 할당 32
4.3.2 REINFORCE 기반 무기 할당 . 35
4.3.3 전처리 및 신경망 공유 REINFORCE 기반 할당 37
제 5 장 결 론 . 42
제 6 장 참고 문헌 44