검색 상세

마비 말 장애 환자의 음성 인식을 위한 대규모 언어 모델 및 음성 합성기를 활용한 데이터 증강 방법

Data Augmentation for Speech Recognition in Patients with Dysarthria Using Large Language Models and Speech Synthesizers

초록 (요약문)

마비말장애를가진개인들을위한자동음성인식(ASR)시스템은보완대체의사 소통(AAC)이나 스마트 홈 기기 활용 등 일상생활의 다양한 측면에서 큰 도움을 줄 수 있다. 최근의 연구에서는 마비 말 장애 음성 데이터의 부족 문제를 해결하기 위한 방법 으로 데이터 증강이 주목받고 있으며, 이 중에서도 음성 합성 기반의 증강 방식이 가장 효과적인 성능을 보이고 있다. 그러나 기존 접근 방식은 음성 합성 모델을 학습시키기 위한 추가 자원이 필요하고, 제한된 마비 말 장애 음성 데이터를 기반으로 미세 조정되 기 때문에 생성된 음성이 다양성이 부족하고 품질이 저하되는 문제가 있다. 이는 마비 말 장애 음성 인식 성능 향상을 저해하는 요인으로 작용한다. 이러한 문제를 해결하기 위해, 본 연구에서는 대규모 언어 모델과 음성 합성기를 활용한 데이터 증강 방식을 제안한다. 이 방식은 대규모 언어 모델(LLM)을 활용해 마비 말 장애 특성을 반영한 텍스트 시퀀스를 생성하고, 이를 사전 학습된 음성 합성 모델에 입력하여 마비 말 장애 화자처럼 들리는 음성을 합성한다. 생성된 음성 데이터는 이후 마비 말 장애 음성 인식 모델의 미세 조정에 활용된다. TORGO 데이터셋의 특성을 바탕으로, 단어 수준과 문장 수준의 증강 방식 차이를 분석하고, 합성된 음성의 품질을 오디오 임베딩 비교를 통해 평가함으로써 조음장애 음성 처리 분야의 후속 연구를 위한 기반을 마련하고자 한다. 핵 심 낱 말 마비 말 장애 음성 증강, 마비 말 장애 음성 인식, 음성 합성, 대규모 언어 모델

more

초록 (요약문)

Dysarthric automatic speech recognition (ASR) systems can greatly assist indi- viduals with dysarthria in daily life, including augmentative and alternative commu- nication (AAC) and smart home device use. Recent studies highlight data augmen- tation—especially speech synthesis–based methods—as an effective solution to the limited availability of dysarthric speech data. However, current approaches require additional resources to train speech synthesis models, and since these models are fine-tuned using limited dysarthric speech data, the synthesized speech often lacks diversity and suffers from reduced quality. These factors hinder further improve- ments in dysarthric ASR performance. To address these challenges, we propose a data augmentation method that leverages a large language model (LLM) and text- to-speech (TTS) model to generate dysarthric text sequences, which are then fed into a pretrained TTS model to synthesize dysarthric-like speech. The generated data is subsequently used for fine-tuning dysarthric ASR systems. Based on the charac- teristics of the TORGO dataset, we analyze the differences between word-level and sentence-level augmentation and assess the quality of the synthesized speech data by comparing their audio embeddings, thereby laying the groundwork for future research in dysarthric speech processing. Keywords Dysarthric Speech Augmentation, Dysarthria Automatic Speech Recog- nition, Text-to-Speech, Large-Language-Model

more

목차

제 1 장 서론 3
1.1 마비 말 장애 자동 음성 인식 모델 연구의 필요성 3
1.2 마비말 장애 음성 증강의 필요성 4
1.3 연구의 기여점 5
1.4 연구 개요 6
제 2 장 관련 연구 8
2.1 자동 음성 인식 연구 8
2.2 마비 말 장애 음성 인식 연구 9
2.3 음성 합성 모델 연구 10
2.4 마비 말 장애 음성 합성 연구 11
2.5 음성 인식을 위한 데이터 증강 연구 12
2.6 대규모 언어 모델 관련 연구 13
제 3 장 마비 말 장애 환자의 음성 생성을 위한 대규모 언어 모델과 음성
합성기 사용 방법 15
3.1 대규모 언어 모델과 음성 합성을 활용한 마비 말 장애 음성
데이터 생성 프레임 워크 15
3.2 대규모 언어 모델을 이용한 마비 말 장애 환자 텍스트 시퀀스
생성 17
3.3 사전 훈련된 음성 합성기: F5-TTS 19
3.4 자동 음성 인식 모델: Whisper 22
제 4 장 실험 환경 및 결과 분석 24
4.1 실험 환경 24
4.1.1 데이터셋 24
4.1.2 대규모 언어 모델 25
4.1.3 음성 합성 모델 26
4.1.4 자동 음성 인식 모델 28
4.2 제안한 프레임 워크의 음성 인식 성능 평가 29
4.2.1 실험 베이스 라인 선정 29
4.2.2 결과 30
4.3 증강 데이터 비율에 따른 성능 변화 추이 33
4.4 오디오 임베딩을 이용한 합성음 품질 검증 34
제 5 장 연구의 한계 36
제 6 장 결론 38

more