노이즈 환경에서 효과적인 로봇 강화 학습의 정책 탐색 방법
Efficient policy search method for Robot Reinforcement learning with noisy reward
- 주제(키워드) 로봇 팔 , 강화 학습 , 노이즈 , 가중 합 방법 , 선형 회귀 방법 , 보틀 플리핑 , Robotic arm , Reinforcement Learning , Noisy reward , Weighted sum method , Linear regression method , Bottle flipping
- 발행기관 서강대학교 일반대학원
- 지도교수 이철수
- 발행년도 2020
- 학위수여년월 2020. 8
- 학위명 석사
- 학과 및 전공 일반대학원 기계공학과
- UCI I804:11029-000000065353
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
로봇은 각종 산업과 서비스 분야에서 활발하게 사용되고 있다. 전통적인 로봇은 고정된 환경에서 반복적인 작업을 수행하는데 사용되었으며 기존의 제어 방식으로는 주변 환경이나 다른 사물 등의 물리적 상호관계가 복잡한 문제를 해결하기는 매우 어렵다. 강화 학습은 그런 문제를 풀기위한 기계 학습의 한 방법으로 활발히 연구되었으며 기존의 방식으로는 로봇이 해결하지 못했던 문제에 대한 해답을 내놓고 있다. 모든 물리적 로봇의 학습에 관한 연구들은 공통적으로 노이즈의 영향을 받는다. 로봇의 제어 오차나 측정 장비 성능의 한계, 주변 환경 및 사물과의 물리적 상호관계의 복잡성 등 복합적으로 발생한 노이즈는 학습을 저하시키는 요소로 작용할 수 있다. 가상의 환경에서는 잘 작동하는 학습 방법이 실제 로봇에서는 학습 속도가 떨어질 수 있다. 이에 본 논문은 노이즈 환경에서도 효과적이고 정확한 학습이 가능한 방법으로 가중 합 방법과 선형 회귀 방법을 제안하고자 한다. 그리고 보틀 플리핑 놀이를 로봇에게 학습시키고 기존의 학습 방법과의 비교하여 제안한 방법의 타당성을 검증하였다.
more초록/요약
Robots are widely used in industries and services. Traditional robots have been used to perform repetitive tasks in a fixed environment, and it is very difficult to solve a problem in which the physical interaction of the surrounding environment or other objects is complicated with the existing control method. Reinforcement learning has been actively studied as a method of machine learning to solve such problems, and provides answers to problems that robots have not solved in the conventional way. Studies on the learning of all physical robots are commonly affected by noise. Complex noises, such as control errors of robots, limitations in performance of measurement equipment, and complexity of physical interactions with surrounding environments and objects, can act as factors that degrade learning. A learning method that works well in a virtual environment may not very effective in a real robot. Therefore, this paper proposes a weighted sum method and a linear regression method as an effective and accurate learning method in a noisy environment. In addition, the bottle flipping was trained on a robot and compared with the existing learning method, the validity of the proposed method was verified.
more