Multi-Agent Reinforcement Learning을 활용한 건설 현장에서의 장비 운용 최적화 연구
A Study on Construction Equipment Operation Optimization Using Multi-Agent Reinforcement Learning: With Focus on Excavator and Dump Truck Collaboration
- 주제어 (키워드) 다중 에이전트 강화학습 , 근접 정책 최적화 , 건설 장비 최적화 , 굴착기 , 덤프트럭 , Multi-Agent Reinforcement Learning , Proximal Policy Optimization , Construction Equipment Optimization , Excavator , Dump Truck
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 양지훈
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000079452
- UCI I804:11029-000000079452
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
건설 현장에서 굴착기와 덤프트럭의 효율적인 운용은 공사 기간 단축과 비용 절감에 중요한 영향을 미친다. 굴착기는 작업 물질을 발굴하고 덤프트럭은 이를 운반하는 역할을 하며, 이들 장비 간의 협업이 원활히 이루어지지 않을 경우 작업 효율이 급격히 저하된다. 기존의 장비 운용 최적화는 전문가의 경험이나 전통적 알고리즘에 의존했으나, 복잡한 작업 환경에서의 상호작용을 충분히 반영하지 못하는 한계가 있었다. 본 연구는 이러한 한계를 극복하고자 다중 에이전트 강화학습(Multi-Agent Reinforcement Learning, MARL)을 기반으로 한 최적화 모델을 제안하였다. OpenAI Gym 프레임워크를 활용하여 굴착기와 덤프트럭이 실시간으로 협업하는 시뮬레이션 환경을 구축하였으며, 실제 건설 현장의 다양한 조건을 반영하기 위해 가변적 그리드 환경과 다수의 장애물 조건을 설정하였다. 각 장비는 독립적인 에이전트로 설계되어 Proximal Policy Optimization(PPO) 알고리즘을 통해 자율적으로 학습을 수행하며, 특히 이동 거리 최소화, 작업 완료율, 에너지 효율성을 포함하는 다차원적 보상 함수를 기반으로 최적의 작업 정책을 도출한다. 또한, 학습의 안정성과 수렴 속도를 개선하기 위해 커리큘럼 러닝 기법을 도입하여 난이도를 점진적으로 증가시키는 방식을 적용하였다. 실험 결과, 제안된 MARL 모델은 환경의 크기와 복잡도에 따라 차별화된 성능 특성을 보였다. 중간 규모의 환경에서는 기존 알고리즘들과 유사한 성능을 보였으며, 대규모 환경에서는 최대 54.8%의 성능 향상을 달성했다. 특히 장애물이 존재하는 복잡한 환경에서 MARL 은 우수한 적응력을 보였는데, 장애물 수 증가에 따른 성능 저하율이 약 30%로, 기존 알고리즘(50~60%)대비 안정적인 성능을 유지했다. 본 연구는 강화학습을 활용하여 건설 장비의 운용 효율성과 확장성을 동시에 개선할 수 있음을 입증하였으며, 특히 대규모 건설 현장에서의 적용 가능성을 보여주었다. 추가 연구로는 첫째, 더 다양한 장비 조합과 작업 유형에 대한 검증, 둘째, 실시간 환경 변화에 대한 적응력 향상, 셋째, 에너지 효율성을 고려한 보상 함수의 개선이 필요하다. 본 연구는 건설 현장의 자동화와 효율화를 위한 인공지능 기술 적용의 실질적 가능성을 제시했다는 점에서 의의가 있다.
more초록 (요약문)
The efficient operation of excavators and dump trucks in construction sites significantly impacts project duration and cost reduction. While excavators are responsible for excavating materials and dump trucks for transportation, inefficient collaboration between these equipment types can severely decrease operational efficiency. Traditional equipment operation optimization has relied on expert experience or conventional algorithms, but these approaches have shown limitations in reflecting complex operational environment interactions. This study proposes an optimization model based on Multi-Agent Reinforcement Learning (MARL) to overcome these limitations. Using OpenAI Gym, a simulation environment was constructed featuring collaborative operations between excavators and dump trucks, incorporating various grid sizes and obstacle conditions to reflect diverse construction site conditions. Each piece of equipment is designed as an independent agent and learns autonomously through the Proximal Policy Optimization (PPO) algorithm, developing policies based on a comprehensive reward function that includes travel distance minimization, task completion rate, and energy efficiency. Additionally, curriculum learning was introduced to adjust initial learning difficulty, enabling stable and rapid learning convergence. Experimental results demonstrated that the proposed MARL model showed differentiated performance depending on environment size and complexity. In medium-scale environments, performance was comparable to existing algorithms, while in large-scale environments, MARL achieved up to 54.8% performance improvement. Notably, MARL showed superior adaptability in complex environments with obstacles, maintaining a performance degradation rate of approximately 30% as obstacle numbers increased, compared to 50~60% in conventional algorithms. This study demonstrates that reinforcement learning can simultaneously improve operational efficiency and scalability of construction equipment, particularly showing promise for application in large-scale construction sites. Future research directions include: first, validation with diverse equipment combinations and task types; second, improving adaptability to real-time environmental changes; and third, enhancing reward functions to consider energy efficiency. This research is significant in demonstrating the practical potential of applying artificial intelligence technology for construction site automation and optimization.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.2 논문의 구성 2
제 2 장 관련 연구 4
2.1 건설 현장 장비 조합. 4
2.2 강화학습 적용 5
2.2.1 근접 정책 최적화 알고리즘(PPO)에 대한 연구 5
2.2.2 강화학습 적용 사례 7
2.3 전통적인 최적화 알고리즘 8
제 3 장 MARL 을 활용한 건설 현장 장비 운용 최적화 10
3.1 문제 정의 10
3.2 시뮬레이션 환경 구성 10
3.3 장비 구성 및 상태 공간 12
3.4 행동 공간 및 제약 조건 13
3.5 문제의 형식화 14
제 4 장 실험 및 결과 16
4.1 실험 방법 16
4.1.1. 학습 알고리즘 및 파라미터 16
4.1.2. 실험 환경 구성 16
4.1.3. 실험 시나리오 17
4.1.4. 보상 함수 설계 18
4.2 실험 결과 22
4.2.1 환경 크기에 따른 성능 분석 22
4.2.2 장애물 영향 분석 24
4.2.3 계산 복잡도 분석 26
제 5 장 결론 및 향후 과제 28
참 고 문 헌 31