검색 상세

Expert와의 융합을 통한 강화 학습 알고리즘의 성능 향상 기법 : Methods for Improving Reinforcement Learning Algorithm through Incorporation with Experts

  • 발행기관 서강대학교 대학원
  • 지도교수 장형수
  • 발행년도 2008
  • 학위수여년월 2008. 2
  • 학위명 석사
  • 학과 및 전공 컴퓨터학
  • 식별자(기타) 000000107515
  • 본문언어 한국어

목차

최근에 제안된 강화 학습 기법인 “potential-based" reinforcement learning(RL) 기법은 다수 학습들과 expert advice들을 감독 지식으로 강화 학습 알고리즘에 융합하는 것을 가능하게 했고 그 효용성은 최적 정책으로의 이론적 수렴성 보장으로 증명되었다.
본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제와 robot navigation 문제에 각각 적용한다. 셀룰러 네트워크에서의 채널 할당 문제의 경우 potential-based RL 기반의 동적 채널 할당 기법은 기존의 fixed channel assignment, Maxavail, Q-learning-based dynamic channel assignment 채널 할당 기법들보다 효율적으로 채널을 할당하고 Robot navigation 문제에 대해서는 potential-based RL 기법이 기존의 SARSA(0)와 PRQ-learning 강화 학습 알고리즘들에 비해 최적 정책에 더 빠르게 수렴한다는 것을 실험적으로 확인한다.
그리고 강화 학습 알고리즘의 exploration-exploitation rule(EE-rule) 중 하나인 -greedy strategy에 expert advice를 반영하도록 변형한 새로운 EE-rule인 “-greedy strategy with experts"를 제안하고, -greedy strategy with experts를 사용한 강화 학습 알고리즘이 -greedy strategy를 사용한 강화 학습 알고리즘보다 최적 정책에 더 빠르게 수렴한다는 것을 셀룰러 네트워크에서의 채널 할당 문제를 통해서 실험적으로 확인한다.

more

목차

The recently proposed "potential-based" reinforcement learning(RL) method made it possible to combine multiple learnings and expert advices as supervised knowledge within an RL framework. The effectiveness of the approach has been established by a theoretical convergence guarantee to an optimal policy.
In this paper, the potential-based RL method is applied to a dynamic channel assignment (DCA) problem in a cellular network and a robot navigation problem as a case study. It is empirically shown that for the DCA problem, DCA with the potential-based RL assigns channels more efficiently than fixed channel assignment, Maxavail, and Q-learning-based DCA, and for the robot navigation problem, the potential-based RL method converges to an optimal policy more rapidly than other RL algorithms, SARSA(0) and PRQ-learning.
Also, we propose the new exploration-exploitation rule(EE-rule), "-greedy strategy with experts", which is transformed by reflecting expert advices in -greedy strategy. For DCA problems, the reinforcement learning algorithm with -greedy strategy with experts converges to an optimal policy more rapidly than the RL algorithm with -greedy strategy.

more