객체 영역 인식을 활용한 RGB 카메라-라이다 상대 위치 추정 딥러닝 모델의 성능 개선 연구
Pose Estimation between RGB Camera and LiDAR Using Object Region Recognition
- 발행기관 서강대학교 정보통신대학원
- 지도교수 이주호
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000078880
- UCI I804:11029-000000078880
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
자율 주행 분야는 여러 분야의 기술 혁신과 함께 급속도로 발전되어 왔다. 차량이 주행 중에 일어날 수 있는 상황에 대처하기 위해서는 주변 환경의 인지가 필요하며, 환경 데이터를 수집할 수 있는 센서들이 필수 불가결하다. 하나의 센서 만을 사용하는 것이 아닌 다 기종의 센서를 사용하여 상호 보완 작용하며 주변 환경 데이터를 수집하며, 이러한 센서들의 결합을 센서 융합이라고 한다. 그 중에서도 가장 보편적으로 쓰이는 센서는 카메라와 라이다(LiDAR)이다. 센서들이 수집한 데이터를 자율 주행에 활용하기 위해서는 센서 간 캘리브레이션(Calibration)이 필수 불가결하다. 특히 카메라-라이다 간 캘리브레이션 에서는 두 센서의 좌표계를 하나의 센서 좌표계로 통일해야 하며, 이때 카메라와 라이다의 위치 관계를 나타내는 외부(Extrinsic) 파라미터가 사용된다. 더욱 정확한 외부 파라미터를 얻기 위해 다양한 방법이 사용되어 왔으며, 최 근에는 딥러닝을 이용한 외부 파라미터 추정 방법이 활발히 연구되고 있다. 현재까지 연구된 외부 파라미터 추정 딥러닝 모델들은 주로 예측된 파라미터와 실제 파라미터 간의 수치적 차이를 줄이기 위한 방향으로 학습이 진행된다. 이러한 접근 방식은 공간 정보나 기하 정보를 충분히 활용하지 못하는 한계가 있다. 외부 파라미터는 센서 간 상대적 위치와 방향 등의 공간 정보를 나타내므로, 외부 파라미터 추정을 위해 공간 정보와 기하 정보를 학습에 반영하는 것이 중요하다. 최근의 딥러닝 모델, 특히 대표적인 모델인 LiDAR and Camera Self- Calibration using Cost Volume Network (LCCNet)의 경우 두 가지의 손실 함수를 구성하여 공간 정보를 활용하고 있다. 그러나 LCCNet의 손실 함수는 여전히 수치적 차이 최소화에 초점을 두고 있어, 객체의 공간적인 위치 정보를 직접적으로 반영하기에는 한계가 있다. 이와 같이 일부 딥러닝 모델은 이러한 정보를 활용하는 시도를 하고 있으나, 더욱 효과적인 방법론 개발이 요구된다. 본 논문에서는 LCCNet을 기반으로, 객체 영역 정보를 활용하는 Distance Intersection over Union (DIoU) 손실 함수를 추가하여 모델의 예측 정확도를 향상시키고자 하였다. LCCNet에 DIoU 손실 함수를 추가하여 외부 파라미터를 예측한 결과, 기존 결과 대비 성능의 향상이 이루어진 것을 확인할 수 있었다. DIoU 손실 함수를 구하기 위해 모델에서 예측한 외부 파라미터를 이용하여 3차원 객체 영역 데이터를 2차원 카메라 좌표계로 투영하였고, 투영된 객체 영역 데이터와 2차원 객체 영역 데이터 간 DIoU를 구하는 방식을 적용하였다. DIoU 손실 함수를 추가하여 fine-tuning 한 모델과, 기존의 모델을 동일한 데이터셋으로 테스트한 결과 외부 파라미터를 구성하는 6개의 파라미터의 정확도가 향상되었다.
more초록 (요약문)
The field of autonomous driving has rapidly advanced alongside various technological innovations. To handle situations that may arise during vehicle operation, it is essential to perceive the surrounding environment, and sensors that can collect environmental data are indispensable. Rather than relying on a single sensor, multiple types of sensors are used to complement each other and gather data on the surrounding environment, a process known as sensor fusion. Among these, the most commonly used sensors are cameras and LiDAR. To utilize the data collected by these sensors for autonomous driving, sensor calibration is essential. In particular, for camera-LiDAR calibration, the coordinate systems of the two sensors must be unified into one sensor coordinate system, and external (extrinsic) parameters representing the positional relationship between the camera and LiDAR are used. Various methods have been used to obtain more accurate external parameters, and recently, external parameter estimation using deep learning has been actively researched. The deep learning models developed for external parameter estimation up to now mainly focus on minimizing the numerical difference between the predicted parameters and the actual parameters. This approach has limitations as it does not sufficiently utilize spatial or geometric information. Since external parameters represent spatial information such as the relative position and orientation between sensors, it is important to incorporate spatial and geometric information into the learning process for external parameter estimation. Recent deep learning models, especially the representative model LiDAR and Camera Self-Calibration using Cost Volume Network (LCCNet), construct two types of loss functions to utilize spatial information. However, the loss function of LCCNet still focuses on minimizing numerical differences, which has limitations in directly reflecting the spatial positional information of objects. While some deep learning models attempt to use such information, more effective methodologies are needed. This study aims to enhance the accuracy of predicting external parameters by integrating a Distance Intersection over Union (DIoU) loss function with LCCNet. The results of predicting external parameters by adding the DIoU loss function to LCCNet showed an improvement in performance compared to the existing results. To obtain the DIoU loss function, the 3D object region data predicted by the model was projected into the 2D camera coordinate system using the predicted external parameters, and the DIoU between the projected object region data and the 2D object region data was calculated. Testing the fine-tuned model with the added DIoU loss function and the existing model on the same dataset showed an improvement in the accuracy of the six parameters constituting the external parameters.
more목차
제 1 장 서론 1
제 1 절 연구 배경 및 필요성 1
제 2 절 연구 목적 2
제 3 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 좌표계 및 좌표계 변환 4
(1) 좌표계 4
(2) 카메라 좌표계 4
(3) 라이다 좌표계 6
(4) 좌표계 변환 7
(5) 6 Degree of Freedom 9
제 2 절 캘리브레이션 11
(1) 타겟 기반 캘리브레이션 11
(2) 타겟리스 기반 캘리브레이션 12
제 3 절 교차 영역 평가 지표 14
(1) Intersection over Union 14
(2) Distance Intersection over Union 15
제 4 절 외부 파라미터 추론 딥러닝 기저 모델 17
제 5 절 KITTI 데이터셋 19
제 3 장 연구 방법 20
제 1 절 기저 모델 의 한계 20
제 2 절 DIoU 손실 함수와 IoU 손실 함수의 비교 23
제 3 절 손실 함수 구성 방법 25
제 4 절 학습 방법 30
제 5 절 데이터셋 수집 및 구성 31
제 4 장 연구 실험 및 결과 33
제 1 절 학습 및 추론 환경 33
제 2 절 실험 결과 35
제 5 장 결론 41
제 1 절 연구 성과 41
제 2 절 한계점 및 후속 연구 방향 41
참고 문헌 43