검색 상세

Adversarial Goal-Conditioned Offline 강화학습을 활용한 한국의 기준금리 결정에 관한 연구

A Study on Determination of Korea's Base Rate Using Adversarial Goal-Conditioned Offline Reinforcement Learning

초록 (요약문)

강화학습은 자동화된 목적 지향적 학습으로 머신러닝 세부 이론 중에서 최적의 의사결정 모델링에 가장 적합한 방법이다. 딥러닝을 기반으로 한 함수적 근사기법을 결합하여 복잡한(complex) 상태공간(state space)에서도 일반성(generality)을 달성할 수 있어 다양한 분야에서 성공해 왔다. 또한, 금융 분야의 제어이론(control theory)과 강화학습의 장기적 보상 최대화라는 부분이 맞닿아 있어 최근 금융 분야에 강화학습이 빠르게 적용되고 있다. 하지만, 전통적인 강화학습은 학습 시에 주어진 보상이 최대가 되게 하려면 반복적으로 환경과 상호작용하면서 시행착오를 거쳐야만 하므로, 시행착오를 기반으로 학습할 수 없는 기준금리 결정과 같은 분야에서는 강화학습이 적용되지 못하였다. 본 논문에서는 이러한 문제점을 해결하고 한국의 국내 기준금리 결정분야에 강화학습을 적용하기 위해, 최근 급격하게 성장하고 있는 오프라인 강화학습(Offline RL)을 기반으로 한 Adversarial Goal-Conditioned Offline 강화학습(AGCO-RL) 모델을 제안한다. AGCO-RL은 Offline RL이기 때문에 시행착오를 기반으로 한 학습이 필요하지 않고, 주어진 과거의 데이터만을 가지고 학습이 가능하다. 그리고 적은 데이터로도 학습할 수 있게 하려고 2-layer 뉴런네트워크 모델로 한정한다. 또한, Goal-Conditioned 강화학습을 적용하여 보상함수의 설계가 어려운 부분도 해결하고 주어진 미래의 상태(state)에 따라 의사결정을 할 수 있는 모델을 구축하였다. 마지막으로 시행착오 학습할 수 없음에 따라 가우시안 노이즈(noise)를 추가한 적대적(Adversarial) 방식으로 학습하여 견고한 모델을 구축하였다. 이를 통해 테일러준칙 대비 압도적인 성능과 분류 베이스라인 모델과 비교해도 비슷하거나 더 높은 성능을 달성하였다.

more

초록 (요약문)

Reinforcement learning is an automated, goal-oriented learning method that is most suitable for optimal decision modeling among machine learning detailed theories. By combining functional approximation techniques based on deep learning, generality can be achieved even in a complex state space, which has been successful in various fields. In addition, since the control theory of the financial field and the long-term reward maximization of reinforcement learning are in close contact, reinforcement learning has been rapidly applied to the financial field. However, traditional reinforcement learning requires trial and error while repeatedly interacting with the environment in order to maximize the reward given during learning. Therefore, reinforcement learning could not be applied in areas such as the determination of the base rate that cannot be learned based on trial and error. In this paper, in order to solve this problem and apply reinforcement learning to the domestic base rate determination field of the Bank of Korea, Adversarial Goal-Conditioned Offline Reinforcement Learning based on Offline Reinforcement Learning (Offline RL), which is growing rapidly in recent years (AGCO-RL) model is proposed. Because AGCO-RL is offline RL, learning based on trial and error is not required, and learning is possible only with given past data. And in order to be able to learn with a small amount of data, it is limited to a 2-layer neural network model. In addition, by applying Goal-Conditioned Reinforcement Learning, the difficult part of designing the reward function was solved, and a model was built that can make decisions according to a given future state. Finally, as trial and error learning is not possible, a robust model was built by learning in an adversarial method with Gaussian noise added. Through this, the overwhelming performance compared to Taylor's rule and similar or higher performance compared to the classification baseline model were achieved.

more