Optimizing Gaze Estimation with a DLA-Based Calibration Module on NVIDIA Jetson Platforms
- 주제어 (키워드) Deep Learning Accelerator , Deep Learning , Gaze Estimation , NVIDIA Jetson , Convolution
- 발행기관 서강대학교 일반대학원
- 지도교수 김경환
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079430
- UCI I804:11029-000000079430
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Gaze estimation is a commonly used task in human-computer interaction, with its applications ranging from driver monitoring systems to human assistive technologies. However, achieving robust, real-time performance on edge devices remains a challenge due to limited computational resources and the need for high energy efficiency. In this work, we present a novel gaze estimation model optimized for NVIDIA Jetson platforms, leveraging the unique capabilities of Deep Learning Accelerators (DLAs) for enhanced efficiency. Our model includes a calibration module designed for DLA execution, incorporating convolutional spatial and channel attention to improve robustness after face detection stage. By strategically distributing computational tasks across GPU and DLA, our approach achieves up to an 88% increase in energy efficiency compared to sys- tem without calibration module, making it well-suited for real-time edge-based applications in resource-constrained environments.
more초록 (요약문)
Gaze estimation은 인간-컴퓨터 상호작용에서 널리 활용되는 과제로, 운전자 모니터링 시스템부터 인간 보조 기술에 이르기까지 다양한 응용 분야를 가지고 있다. 그러나 한정된 계산 자원과 높은 에너지 효율성을 요구하는 특성으로 인해 엣지 디바이스에서 강건하고 실시간 성능을 달성하는 데 여전히 어려움이 존재한다. 본 연구에서는 NVIDIA Jetson 플랫폼에 최적화된 새로운 시선 추정 모델을 제안한다. 이 모델은 딥러닝 가속기(DLA)의 고유한 기능을 활용하여 효율성을 극대화하며, DLA 실행에 특화된 보정 모듈을 포함한다. 보정 모듈은 얼굴 검출 단계 이후 강건성을 향상시키기 위해 공간 및 채널 주의 메커니즘을 통합한 컨볼루션 구조를 적용한다. GPU와 DLA 간의 계산 작업을 전략적으로 분배하여 보정 모듈이 없는 시스템에 비해 에너지 효율성을 최대 88%까지 향상시키며, 자원이 제한된 환경에서 실시간 엣지 기반 응용에 적합한 모델임을 입증한다.
more목차
1 Introduction 1
2 Related Work 4
2.1 Appearance-Based Gaze Estimation 4
2.2 Preprocessing Challenges and Calibration Solutions 5
2.3 Edge Device Environment 6
2.4 DLA Optimization and Multi-Accelerator Strategies 7
3 Proposed Method 9
3.1 Overview 9
3.2 Gaze Estimation Model Design 9
3.2.1 Problem Definition 9
3.2.2 Model Architecture 10
3.2.3 Calibration Module 11
3.2.4 Attention Network 13
3.3 DLA Implementation and Optimization 15
3.3.1 DLA Capabilities and Constraints 15
3.3.2 Parallel Execution on GPU and DLA 17
3.3.3 Parallelization Process 18
3.3.4 DLA-Specific Optimizations 19
4 Experiments 21
4.1 Experimental Setup 21
4.1.1 Datasets 21
4.1.2 Implementation Details 22
4.1.3 Performance Metrics 23
4.2 Results and Analysis 24
4.2.1 Accuracy 24
4.2.2 Throughput and Energy Efficiency 25
4.2.3 Ablation Studies 27
4.2.4 Limitations 28
5 Conclusion 30
Bibliography 32