검색 상세

Semi-Decentralized Control of Multi-Robot System for Autonomous Navigation in Cluttered Environments via Multi-Agent Reinforcement Learning

혼잡 환경에서 다수 로봇의 자율주행을 위한 다중 에이전트 강화학습 기반의 준분산 로봇 제어 기술

초록 (요약문)

We consider the navigation problem of multiple mobile robots in a continuous space populated with static obstacles. The goal of the robots is to arrive their respective destinations while avoiding collisions with obstacles and other robots. Conventionally, this problem is formulated as multi-robot path planning (MRPP) to generate collision-free paths for all robots. However, MRPP is computationally intractable owing to the involvement of multiple robots in the continuous space resulting in infinite states and actions. Also, the paths from MRPP algorithms need to consider kinematic constraints and dynamics of the robots, which complicates the planning problem. We propose an alternative approach to MRPP for improved run-time efficiency through reinforcement learning (RL) that learns to control the robots directly rather than computing the paths. Our multi-agent RL (MARL) agent receives the information about the environment and the robots (e.g., images of the configuration space, LiDAR readings, robot states, etc.) and generates control inputs to the wheels of the robots. The MARL agent is trained in a simulated environment populated with three robots and multiple obstacles. Considering every robots have the same navigation mission, we solve multi-robot navigation problem using the two nearest neighbor robots for training. Each robot gathers the episode trajectories, consisting of observations, actions, rewards through exploring the dynamic environment where each robot perceives each other as dynamic obstacles. The episode trajectories are then used to train a homogeneous semi-decentralized policy which incorporates the observations of the two nearest robots. The learned policy provides control inputs to each robot to navigate the environment while avoiding collisions with obstacles and other robots. The policy can be deployed to more than three robots as each robot only needs to obtain the information about few nearby robots but not all team members. Since the policy does not require computation of exact paths at run-time and consideration of robot kinodynamic constraints, we can navigate a team of robots efficiently in an end-to-end manner. From an extensive experiment, we find that the method has an ability to generalize to different environments with varying goal locations. We also see the feasibility of scaling the method to accommodate different numbers of robots. We conduct experiments in diverse environments with different number of robots with their varying goal locations. The layouts of the environments have different complexities and difficulties depending on the shapes and sizes of the obstacles.

more

초록 (요약문)

본 논문에서는 정적 장애물로 이루어진 연속 공간에서 다수의 이동 로봇이 충돌을 피하면서 각각의 목적지에 도달하는 다중 로봇 주행 문제를 다룬다. 전통적으로 이 문제는 각각의 로봇에 대해 충돌이 없는 경로를 생성하는 다중 로봇 경로 계획의 방법을 통해 해결되어 왔다. 하지만 로봇의 경로를 계획하는 방법은 로봇의 수가 증가함에 따라 로봇들 사이의 충돌 회피를 위해 고려해야할 조합의 수가 기하급수적으로 증가하기 때문에 실시간으로 활용하기에는 계산 시간이 현실적이지 못한 단점이 있다. 또한 로봇의 기구학적, 동역학적 제약 조건(kinodynamic constraints)을 고려하지 않은 경로는 로봇이 제대로 따라갈 수 없어 제한 조건이 있는 최적화 문제(constrained optimization)를 풀어 이를 해결해야한다. 하지만 이를 고려한 경로 역시 주행 간 제어 오차로 인해 로봇이 제대로 따라가지 못하는 경우도 발생한다. 반복되는 경로 재계획이 필요한 기존 방법은 빠른 대응이 필요한 동적 환경에서의 주행 문제에 적용하기에 현실성이 떨어진다. 본 논문에서는 경로 계산 대신 입력되는 상태 정보로부터 다수 로봇의 제어 입력을 직접 생성하는 멀티에이전트 강화학습을 통해 다중 로봇 경로 계획에 대한 대안적인 접근 방식을 제안한다. 강화학습을 통하여 환경과 로봇에 대한 정보(구성 공간 이미지, LiDAR 측정값, 로봇 상태 등)를 입력으로 받아 로봇의 바퀴에 대한 제어 입력을 생성한다. 모든 로봇이 동일한 내비게이션 미션을 가지고 있다는 것을 고려하여, 각각의 로봇이 하나의 동일한 정책(homogeneous policy)을 학습한다. 보다 협조적인 주행(coordinated navigation)을 위해 학습 에이전트는 두 대의 가장 가까운 이웃 로봇의 정보를 상태 정보로 사용하는 중앙 집중식(centralized) 학습을 수행한다. 각 로봇은 자신 이외의 로봇들을 동적 장애물로 인식하며 동적 환경을 탐색하고, 가장 가까운 이웃 로봇들의 관측을 포함한 상태(state), 행동(action), 보상(reward)으로 이루어진 에피소드를 수집한다. 이렇게 수집된 에피소드들은 homogeneous decentralized 정책을 학습하는 데 사용된다다. 다양한 실험을 통해, 제안된 방법은 다양한 장애물로 구성된 여러 환경에서 서로 다른 로봇의 목표 위치에 대해서 일반화할 수 있는 능력을 가짐을 확인하였고 추가적인 학습 없이도 더 많은 수의 로봇의 주행 문제를 해결할 수 있는 확인하였다.

more