검색 상세

다중 에이전트 강화 학습을 위한 순서화된 네트워크

송상엽 (서강대학교 영상대학원)

원문보기

  • 발행기관 서강대학교 영상대학원
  • 지도교수 이상욱
  • 발행년도 2020
  • 학위수여년월 2020. 2
  • 학위명 석사
  • 학과 및 전공 영상대학원 영상공학예술공학
  • UCI I804:11029-000000065099
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록 moremore
AI의 많은 과제는 하나의 에이전트가 아닌 여러 개의 에이전트의 협력으로 해결하는 경우가 많다. 다중 에이전트 강화 학습(multi-agent reinforcement learning)에서는 협력하기 위해서 보통 에이전트 간의 소통(communication)을 사용해 왔다. 하지만 모든 에이전트 간의 소통은 에이전트 개수가 많아지면 학습해야 할 매개변수가 많아져 문제가 되었다. 이를 해결하기 위하여 소통 채널을 평균하는 방법을 사용하거나 소통할 에이전트를 선택하는 방법 등 다양한 연구가 진행되어 왔다. 본 논문에서는 이러한 다중 에...
AI의 많은 과제는 하나의 에이전트가 아닌 여러 개의 에이전트의 협력으로 해결하는 경우가 많다. 다중 에이전트 강화 학습(multi-agent reinforcement learning)에서는 협력하기 위해서 보통 에이전트 간의 소통(communication)을 사용해 왔다. 하지만 모든 에이전트 간의 소통은 에이전트 개수가 많아지면 학습해야 할 매개변수가 많아져 문제가 되었다. 이를 해결하기 위하여 소통 채널을 평균하는 방법을 사용하거나 소통할 에이전트를 선택하는 방법 등 다양한 연구가 진행되어 왔다. 본 논문에서는 이러한 다중 에이전트 문제를 해결하기 위한 3가지 방법을 제안한다. 첫 번째로는 단방향의 소통을 활용한 순서화 된 네트워크의 구조, 두 번째로는 다중 에이전트 환경의 불안정성을 해결할 수 있는 순차적인 학습 구조, 마지막으로는 Critic 네트워크를 활용한 테스트 성능을 향상을 위한 순번 재배열 함수이다. 본 논문에서는 협력적인 길 찾기 예제를 이용하여 양방향의 소통이 아닌 단방향의 소통이 다중 에이전트 환경에서 좋은 성능을 내는 것과 순차적인 학습으로 인하여 학습이 안정적으로 되는 모습, 그리고 테스트 시 순서 재배열 함수를 사용하여 향상된 성능을 보이는 모습을 보여준다.
초록 moremore
Many tasks in AI are often solved by the cooperation of multi agents instead of single agent. multi agent reinforcement learning has typically used agent-to-agent communication to collaborate. However, the communication between all agents became a problem as the number of agents increased, the more ...
Many tasks in AI are often solved by the cooperation of multi agents instead of single agent. multi agent reinforcement learning has typically used agent-to-agent communication to collaborate. However, the communication between all agents became a problem as the number of agents increased, the more parameters to learn. In order to solve this problem, various researches have been conducted, such as a method of averaging communication channels or selecting an agent to communicate with. In this paper, we propose three methods to solve this multi agent problem. First, the structure of ordered network using one-way communication, second, sequential learning structure to solve instability of multi-agent environment, and finally, index rearrangement function to improve test performance using Critic network. In this paper, we use the cooperative navigation example to show that one-way communication rather than bidirectional communication gets high score in multi agent environment and learning becomes stable by using sequential learning, using index rearrangement function gets high score in test.