검색 상세

Grasping deformable objects via reinforcement learning with cross-modal attention to visuo-tactile inputs

초록 (요약문)

로봇 분야에서 2지 그리퍼 (2-jaw gripper)를 사용하여 물체를 조작하는 과제에 대한 연구가 활발히 진행되고 있다. 그 중에서도 무게 중심이 쉽게 변할 수 있고, 쥐는 정도가 강해지면 손상될 수 있는 특성을 가지고 있는 변형 가능한 물체를 다루는 문제에 대한 관심이 증가하고 있다. 전통적인 로봇 제어 알고리즘으로 로봇이 변형 가능한 물체를 잡을 수 있도록 적절한 제어 입력을 만들기 위해서는 물체에 대한 무게 중심과 형태의 변형, 그리고 겉면에 작용하는 압력에 대한 정확한 모델링이 필요하다. 물체를 떨어뜨리거나 손상시키지 않으면서 적절한 제어를 수행하기 위해서는 로봇이 물체에 대한 감지 정보를 활용하여 물체의 변화에 즉각적으로 대응할 수 있어야 한다. 본 논문에서는 2지 그리퍼의 제어 입력을 심층 강화 학습을 통해 입력에서 출력까지 하나의 프레임워크 (framework)로 생성하는 방법을 제안한다. 심층 강화 학습은 현재 환경의 상태를 정확하게 구분하고 파악할 수 있어야 한다. 따라서 영상과 같은 고차원의 정보를 다루기 위해서 집약적인 정보가 담긴 저차원의 임베딩 벡터 (embedding vector)로 변환하는 인코더가 필수적이다. 변형 가능한 물체를 다루기 위해서는 하나의 센싱 정보가 아닌 시각과 촉각 감지 정보를 모두 활용하는데 본 논문에서는 각 감지 정보들의 상관관계까지 고려하여 임베딩 벡터로 변환하기 위해 크로스 모달 어텐션 메카니즘 (cross-modal attention mechanism)을 활용한다. 또한 다중 센싱 정보가 통합된 임베딩 벡터를 활용하여 2지 그리퍼가 변형 가능한 물체를 안정적으로 잡기 위한 보상 체계를 통해 모델을 학습하였다. 제안한 방법을 사용하여 학습에 사용되지 않은 물체와 로봇의 움직임이 변화된 환경에서도 안정적으로 2지 그리퍼가 변형 가능한 물체를 잡을 수 있는 일반화 성능을 확인할 수 있다.

more

초록 (요약문)

We consider the problem of grasping deformable objects with soft shells using a robotic gripper. Such objects have a center-of-mass that changes dynamically and are fragile so prone to burst. Without a computational model of the object including the shape, center-of-mass, and the pressure on the shell, it is difficult for robots to generate appropriate control inputs not to drop the object or break the shell while performing manipulation tasks. Instead of having an exact model, robots could make use of sensing information about the object to respond to the changes of the object while being manipulated. In this work, we propose a method based on deep reinforcement learning that generates control inputs of a simple gripper in an end-to-end manner from visual and tactile sensing information. Using encoder with cross modality attention module, our reinforcement learning agents capture the integrated multi-modal feature and train to grasp the deformable objects with our reward scheme. We show that our framework is stable in learning and exhibits a generalization to unseen objects and unexperienced movements during the training process.

more