트랜스포머 기반 음성 인식 모델의 다양한 연산 정밀도와 양자화 기법 간 관계 분석
A Comprehensive Analysis of Numerical Precision and Quantization Schemes for Transformer-based Speech Recognition Models
- 발행기관 서강대학교 일반대학원
- 지도교수 이혁준
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000082686
- UCI I804:11029-000000082686
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
최근 음성 인식 분야의 트랜스포머 기반 딥러닝 모델은 높은 정확도를 달성하는 반면, 높은 연산량과 메모리 사용으로 인해 실시간 응용 및 엣지 디바이스 배치에 어려움이 있다. 본 연구에서는 트랜스포머 기반 자동 음성 인식(Automatic Speech Recognition, ASR) 모델인 Whisper 를 대상으로, 다양한 수치 정밀도(numerical precision)와 양자화(quantization) 기법이 성능과 모델 크기에 미치는 영향을 종합적으로 분석한다. INT8, INT4, INT3 등의 정수 기반 양자화와 FP8, FP4, NVFP4 와 같은 부동소수점 기반 초저정밀 포맷을 포함하여, per-tensor, per-channel, per-group(group size 변화) 등 여러 양자화 granularity를 변형하며 모델을 평가하였다. 또한 LLM 분야에서 제안된 SmoothQuant 기법이 Whisper 와 같은 ASR 모델에서도 효과가 있는지 실험적으로 검증하였다. 양자화된 모델의 정확도는 음성 인식 WER(Word Error Rate)로 측정하였으며, 모델 크기는 weight bit-width 와 group 별 scale 저장 비용을 포함한 선형 레이어의 가중치 용량으로 산출하였다. 실험 결과, 부동소수점 8bit 수준의 양자화는 거의 무손실에 가까운 WER 을 보이면서 모델 크기를 크게 감소시켰고, 4bit 이하의 저정밀 구간에서는 포맷 선택(FP4·NVFP4·INT4), group size, activation 양자화, SmoothQuant 적용 여부에 따라 성능 차이가 크게 나타났다. 특히 동일한 weight bit라도 group size와 activation precision의 조합에 따라 실제 모델 크기–정확도 trade-off가 크게 달라지는 것을 확인하였다. 본 연구는 Whisper와 같이 복잡한 트랜스포머 기반 ASR 모델에서 다양한 양자화 설정이 성능 및 저장 비용에 미치는 영향을 정량적으로 제시함으로써, 경량화 모델 설계 및 향후 GPU/NPU 가속기 아키텍처 설계 시 유용한 기준점을 제공한다. 주요 어휘: 트랜스포머, 음성 인식, 양자화, 수치 정밀도, Fake Quantization, 엣지 디바이스, Pareto frontier
more초록(요약문)
Recent transformer-based deep learning models for automatic speech recognition (ASR) have achieved remarkable accuracy; however, their high computational complexity and memory footprint pose significant challenges for real-time applications and deployment on edge devices. In this work, we conduct a comprehensive analysis of the impact of numerical precision and quantization techniques on both performance and model size of Whisper, a transformer-based ASR model. We evaluate a wide range of quantization schemes, including integer-based formats (INT8, INT4, INT3) and ultra-low-precision floating-point formats (FP8, FP4, NVFP4), while varying quantization granularity such as per-tensor, per-channel, and per-group settings with different group sizes. In addition, we experimentally investigate whether SmoothQuant, originally proposed for large language models (LLMs), is effective for ASR models like Whisper. The accuracy of quantized models is evaluated using word error rate (WER), and the model size is estimated based on the storage cost of linear-layer weights, taking into account both weight bit-width and group-wise scaling parameters. Experimental results show that 8-bit floating-point quantization achieves near-lossless WER while substantially reducing model size. In contrast, in the sub-4-bit precision regime, model performance varies significantly depending on the choice of quantization format (FP4, NVFP4, INT4), group size, activation precision, and the application of SmoothQuant. Notably, even with the same weight bit-width, different combinations of group size and activation precision lead to markedly different accuracy–model size trade-offs. This study provides a quantitative characterization of how diverse quantization configurations affect accuracy and storage efficiency in complex transformer-based ASR models such as Whisper, offering practical guidelines for lightweight model design and future GPU/NPU accelerator architecture development. Keywords: Transformer, Automatic Speech Recognition, Quantization, Numerical Precision, Fake Quantization, Edge Devices, Pareto Frontier
more목차
제 1 장 서론 11
제 2 장 연구 배경 및 관련 연구 13
2.1 트랜스포머(Transformer)와 Whisper 13
2.2 양자화(Quantization) 16
2.3 Quantization 관련 연구 19
2.4 Whisper Quantization 및 Edge Deployment 23
제 3 장 연구 방법 25
3.1 연구 개요 25
3.2 Whisper 양자화 방법 및 WER 25
3.3 정수 및 부동소수점 기반 저정밀 포맷 28
3.3.1 정수 기반 포맷(INT8, INT4, INT3) 양자화 28
3.3.2 FP8 포맷 29
3.3.3 FP4 포맷(NVFP4, MXFP4) 30
3.4 Scaling Granularity 및 Activation Quantization 32
3.4.1 Scaling Granularity 32
3.4.2 Activation Quantization 35
3.5 SmoothQuant 기반 Activation Rebalancing 36
3.6 모델 크기(Model Size) 계산 37
3.7 메모리 사용량(Memory Footprint) 계산 38
제 4 장 실험 및 결과 분석 41
4.1 실험 환경 및 설정 41
4.1.1 모델 및 데이터셋 41
4.1.2 디코딩 및 전처리 설정 41
4.1.3 양자화 설정 42
4.2 실험 결과 및 분석 44
4.2.1 WER 성능 평가 44
4.2.2 모델 크기 평가 49
4.2.3 모델 크기-WER Trade-off 분석 55
4.2.4 KV 캐시 및 메모리 사용량 분석 59
4.2.5 SmoothQuant 의 영향 분석 60
제 5 장 결론 및 향후 연구 60
5.1 주요 연구 결과 요약 61
5.2 엣지 디바이스 및 NPU 설계 관점 62
5.3 연구 한계 및 향후 연구 방향 62
참고 문헌 65

