정책 증류와 목표 네트워크 정책 정규화를 통한 PCI 가이드와이어 제어 일반화
Generalization of PCI Guidewire Control through Policy Distillation and Target Network Policy Regularization
- 주제(키워드) 강화학습 , RAINBOW DQN , 정책 증류 , 과적합 , 일반화 , Reinforcement Learning , RAINBOW DQN , Policy Distillation , Over-fitting , Generalization
- 발행기관 서강대학교 일반대학원
- 지도교수 양지훈
- 발행년도 2021
- 학위수여년월 2021. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000065863
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
강화학습(Reinforcement Learning) 알고리즘을 이용하여 PCI 시술의 가이드와이어 조작을 자동화할 때, 환자의 혈관 모양에 관계없이 좋은 성능을 내는 것은 매우 중요하다. 현재 최신 강화학습 알고리즘은 혈관 팬텀(Phantom) 환경에서 가이드와이어 조작 자동화에 좋은 성능을 내지만, 학습 단계에서 보지 못한 새로운 모양의 혈관에서 테스트 했을 때의 성능은 매우 좋지 못하다. 하지만, 알고리즘 학습에 이용되는 팬텀 시뮬레이터는 하드웨어이기 때문에, 혈관 모양이 항상 고정되어있고 그 결과 한 번의 학습으로 하나의 혈관 모양에만 과적합(Over-fitting)된 에이전트(Agent)를 만들 수밖에 없다. 본 논문에서는, 한 번에 하나의 혈관 모양에서만 학습해야하는 팬텀 환경의 제약을 해결하기 위해, 정책 증류(Policy Distillation) 알고리즘을 사용하여 각각 다른 모양의 팬텀에서 학습된 에이전트들의 정책을 하나의 정책으로 합쳐 일반화된 정책을 가진 에이전트를 만드는 방법론을 제안한다. 또한, 강화학습 알고리즘에 특화된 정규화(Regularization) 방법인 목표 네트워크(Target Network)의 정책과의 KL-Divergence 정규화 기법을 새롭게 제안하여 일반화 성능을 향상시켰다. 본 논문에서 제안한 방법을 통해 학습된 에이전트는 학습 과정에서 보지 못한 새로운 모양의 혈관에서 90.13%의 제어 성공률을 보였다.
more초록/요약
When using reinforcement learning algorithms to automate guide-wire control of PCI procedures, it is very important to perform well regardless of the shape of the patient's vessel. Current state-of-the-art reinforcement learning algorithms perform well on guide wire control automation in vascular phantom environments, but performance is very poor when tested on new shaped vessels that have not been seen in the training phase. However, since the phantom simulator used to train algorithms is hardware, the vessel shape is always fixed and consequently only one training makes an agent over fitting to one vessel shape. In this paper, we propose a methodology to create agents with generalized policies using policy distillation algorithms to solve the limitation of the phantom environment that must be learned only one vessel shape at a time. Furthermore, we propose a new KL-Divergence regularization technique with the policy of target network, a regularization method specific to reinforcement learning algorithms, to improve generalization performance. Agents learned through the method proposed in this paper showed a control success rate of 90.13% in new-shaped vessels that were not seen in the training process.
more