저자원 오프라인 자동 음성 인식의 맞춤형 배포를 위한 동적 가지 치기 및 공동 증류 기반 언어 모델 학습
Dynamic Pruning with Joint Distillation-based Language Model Training for Customized Deployment in Low-Resource Offline Automatic Speech Recognition
- 주제어 (키워드) automatic speech recognition , language model , customized deployment , dynamic pruning , joint distillation , long term short-term memory , ensemble , attention mechanism; 자동 음성 인식 , 언어 모델 , 맞춤형 배포 , 동적 가지 치기 , 공동 증류 , 장단기 메모리 , 앙상블 , 주의 메커니즘
- 발행기관 서강대학교 일반대학원
- 지도교수 김지환
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076647
- UCI I804:11029-000000076647
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
In recent years, automatic speech recognition (ASR) systems have become in dispensable for various applications, ranging from transcription services to voice activated virtual assistants. These cutting-edge ASR systems are designed and deployed in online server environments with ample computing resources. In contrast, offline environments such as embedded systems or mobile devices have limited computing power and inherent resource constraints. There is a need for robust and simplified models that can operate reliably under the constraints of these low resource offline ASR scenarios. Ultimately, this requires a customized deployment that can be applied to devices with varying specifications and resource limitations, from high-end to entry-level devices. The thesis proposes a dynamic pruning approach with joint distillation-based language models (LM) training, designed for resource-constrained offline ASR systems. This approach specifically utilizes the Mogrifier long short-term memory (LSTM) as the target LM for dynamic pruning within the ASR framework. Both random and sandwich rule-based dynamic pruning techniques are employed for the Mogrifier LSTM LM. Additionally, to ensure stable model accuracy, the thesis incorporates an online distillation mechanism during the dynamic pruning training phase. This mechanism encompasses two methods: the ensemble and the attention-weighted ensemble methods. The experimental results demonstrate that the Mogrifier LSTM LM trained with the proposed method achieves a word error rate (WER) of 6.61% on the test-other partition of the LibriSpeech dataset. This performance is comparable to state-of-the-art Transformer-based LMs and surpasses models trained solely with dynamic pruning methods. The ablation test conducted on the CommonVoice out-of-domain dataset also yields a WER of 9.73%, which is consistent with the results observed in the LibriSpeech dataset. Furthermore, the proposed dynamic configuration effectively reduces the model's parameter size by approximately 39% while maintaining a balance between reducing model complexity and performance degradation.
more초록
최근 자동 음성 인식 시스템은 전사 서비스부터 음성 인식 가상 비서에 이르기까지 다양한 애플리케이션에서 널리 사용되고 있다. 이러한 최신 자동 음성 인식 시스템은 방대한 컴퓨팅 리소스를 갖춘 온라인 서버 환경이 전제된다. 반면 임베디드 시스템이나 모바일 장치와 같은 오프라인 환경에서는 제한된 컴퓨팅 성능과 내재된 리소스 제약이 존재한다. 이러한 저자원 오프라인 자동 음성 인식 시나리오의 제약 조건에서도 안정적인 성능이 보장되면서도 간소화된 모델이 요구된다. 또한 하이엔드부터 보급형 디바이스에 이르기까지 다양한 사양과 리소스 제한을 가진 디바이스들에 적용할 수 있는 맞춤형 배포가 요구된다. 본 논문에서는 저자원 오프라인 자동 음성 인식의 맞춤형 배포를 위한 동적 가지 치기 및 공동 증류 기반 언어 모델 학습을 제안한다. 구체적으로 자동 음성 인식 프레임워크에서의 동적 가지치기를 위한 타겟으로 Mogrifier 장단기 메모리 언어 모델을 제안한다. 본 동적 가지치기는 랜덤과 샌드위치 규칙 기반 방법이 적용된다. 또한 안정적인 모델 정확도를 위해 동적 가지치기 학습 단계에서 온라인 증류 메커니즘을 제안한다. 본 메커니즘은 앙상블과 주의도 가중 앙상블이라는 두 가지 방법으로 구성된다. 실험 결과 제안하는 방법으로 학습된 Mogrifier 장단기 메모리 언어 모델은 LibriSpeech 데이터셋의 test-other 파티션에 대해 단어 오류율 기준 6.61%이 확인된다. 이는 최신 기술인 Transformer 기반 언어 모델들에 상응되는 수치이며 동적 가치지기만으로 학습된 모델들에 비해 뛰어난 성능으로 확인된다. 또한 CommonVoice 데이터셋에 대한 절제 테스트에서도 단어 오류율 기준 9.73%가 확인되며 이는 LibriSpeech 결과와 일관된 경향을 보인다. 추가적으로 제안된 동적 구성은 모델 복잡성 감소와 성능 저하 사이의 균형을 유지하면서 모델 파라미터 사이즈를 약 39%까지 줄일 수 있는 것으로 확인된다.
more목차
Chapter 1. Introduction 3
1.1 Advancements in ASR 5
1.2 Challenges in ASR 8
1.3 Contributions 11
Chapter 2. Related Works 13
2.1 Components of ASR 13
2.1.1 CTC-based AMs 13
2.1.2 Shallow fusion with LMs 15
2.2 Low-Resource Offline ASR 18
2.3 Pruning Strategies 21
2.3.1 Conventional and Static Pruning 21
2.3.2 Dynamic Pruning 24
2.4 Distillation Mechanisms 26
2.4.1 Teacher-Student Distillation 26
2.4.2 Online Distillation 29
2.5 Integration of Pruning and Distillation 31
Chapter 3. Dynamic Pruning with Joint Distillation-based Language Model Training 33
3.1 Target LMs for Dynamic Pruning 34
3.1.1 Vanilla LSTM 34
3.1.2 Mogrifier LSTM 36
3.1.3 The Impact of Pruning Mogrifier Rounds 38
3.2 Dynamic Pruning in Mogrifier Rounds 39
3.2.1 Random 39
3.2.2 Sandwich Rule 40
3.3 Dynamic Pruning with Joint Distillation in Mogrifier Rounds 41
3.3.1 Motivation 42
3.3.2 Ensemble Mechanism 42
3.3.3 Attention-Weighted Ensemble Mechanism 45
Chapter 4. Experiments 49
4.1 Evaluation Metrics 49
4.2 Experimental Setup 50
4.2.1 Datasets 50
4.2.2 Models 52
4.2.3 Training Details 53
4.3 Experimental Results 53
4.3.1 Comparisons with Vanilla LSTM LM 54
4.3.2 Comparisons with Transformer-based LMs 55
4.3.3 Comparisons of Dynamic Pruning Scenarios 58
4.3.4 Analysis on Dynamic Pruning with Joint Distillation Mechanism 65
4.3.5 Ablation Study on the Minimum Mechanism 69
4.3.6 Ablation Study on the Number of Losses in the Sand-wich Rule 72
4.3.7 Ablation Study on Out-of-Domain Dataset 77
4.4 Summary 81
Chapter 5. Conclusions 82
Bibliography 84