사례 기반 결정 이론을 융합한 학습 전략 및 포텐셜 기반 강화 학습
Exploration-Exploitation Strategies and Potential-based Reinforcement Learning Combined with Case-based Decision Theory
- 주제(키워드) 강화학습 , 사례 기반 결정 이론 , Melax 테트리스 , 호 수락 제어 문제
- 발행기관 서강대학교 일반대학원
- 지도교수 장형수
- 발행년도 2010
- 학위수여년월 2010. 2
- 학위명 석사
- 학과 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000045972
- 본문언어 한국어
- 저작권 서강대학교의 논문은 저작권에 의해 보호받습니다
초록/요약
현실 세계에서 인간은 어떤 문제에 직면했을 때, 현재 처한 상황에서 직접 행동을 결정하고 그로 인한 상황의 변화로부터 피드백을 받아, 이를 이용하여 다음에 처한 상황에서 취할 행동을 결정한다. 이러한 과정을 반복하면서 인간은 스스로 문제를 해결하기 위한 최적의 정책을 학습해 나간다. 이와 같이 환경과 상호작용하면서 최적의 정책을 학습하는데 널리 사용되고 있는 학습 알고리즘으로 강화 학습이 있다. 그런데 강화 학습은 최적의 정책에 수렴은 하지만, 그 수렴 속도가 느리기 때문에 실제 문제에 적용하는데 어려움이 있다. 이를 극복하기 위하여 최근에 강화 학습 알고리즘에서 사용하는 학습 전략으로써 exploration-exploitation rule 중 하나인 전략에 전문가의 지식을 융합하는 기법과 다수의 강화 학습 에이전트들의 학습 결과 및 전문가의 지식을 하나의 학습 알고리즘으로 융합하는 강화 학습인 “potential-based” 강화 학습 기법이 제안되었다. 그러나 이 두 기법에서는 전문가의 지식을 강화 학습에 반영하는 이론적인 아이디어만 제시하고 있을 뿐, 구체적으로 적용하는 방법에 대해서는 제시하지 않고 있다. 전문가의 지식을 강화 학습에 구체적으로 적용하는 방법을 제안하기 위해, Case에 근거한 의사 결정 알고리즘(이하 CBDT)을 전문가로 사용한다. CBDT는 불확실한 환경 하에서의 의사결정을 내리는 방법 이론으로 과거에 마주쳤었던 비슷한 문제의 경험에 기반을 두어 현재 문제에 대한 최적의 행동을 결정한다. 이러한 특징을 갖기에 CBDT는 거의 모든 문제에 적용이 가능하며, 어떤 문제 상황에서도 조언을 줄 수 있는 전문가라 할 수 있다. 따라서, 본 논문에서는 첫 번째로 전략과 Boltzmann Exploration 전략에 CBDT의 경험적 지식을 반영하는 RL-CBDT를 제안한다. 그리고 Melax 테트리스 문제를 통해서 RL-CBDT가 전략 및 Boltzmann Exploration 전략을 사용한 강화 학습 알고리즘보다 최적의 정책에 빠르게 수렴하는 것을 실험적으로 확인한다. 두 번째로 “potential-based" 강화 학습 기법에 CBDT의 경험적 지식을 확률 분포 형태로 적용하는 MRLs-CBDT를 제안한다. 그리고 Melax 테트리스 문제와 셀룰러 네트워크에서의 호 수락 제어 문제를 통하여 MRLs-CBDT가 기존의 강화 학습 알고리즘과 CBDT에 비해 최적의 정책에 빠르게 수렴하는 것을 실험적으로 확인한다.
more

