마비말 장애 자동 진단 모델 성능 향상을 위한 디퓨전 기반 마비말 장애 음성 증강 방법
Diffusion-based Dysarthric Speech Augmentation for Enhanced Automatic Severity Classification in Dysarthric Speech
- 주제어 (키워드) 마비말 장애 음성 증강 , 마비말 장애 심각도 자동 진단 , 디퓨전 , 음성 변환;Dysarthric Speech Augmentation , Dysarthria Automatic Evaluation , Diffusion , Voice Conversion
- 발행기관 서강대학교 일반대학원
- 지도교수 구명완
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076753
- UCI I804:11029-000000076753
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
마비말 장애는 운동성 언어 장애로, 뇌졸중, 뇌종양, 파킨슨 병과 같은 뇌질환에 의해 발생하여 환자의 말 명확도를 심각하게 저하시키며, 신체적 및 심리적 건강에 영향을 미치는 질환이다. 현재 마비말 장애의 진단과 평가는 주로 의사나 임상 치료사의 주관적 청각 평가에 의존하고 있으며, 이러한 평가는 전문가의 지속적인 훈련이 필요하다. 말 명확도는 화자와 청자의 능력에 따라 달라질 수 있어 평가자에 따른 평가 차이가 발생할 수 있다. 이러한 주관적인 평가 방법의 한계로 인해 마비말 장애의 자동 진단 시스템에 대한 필요성이 대두되고 있다. 마비말 장애 코퍼스는 중즘 심각도의 수량이 다른 심각도에 비해 적은 긴 꼬리 분포를 가지고 있다. 이러한 클래스 간 불균형은 자동 진단 모델의 성능을 저하시킨다. 이러한 성능 저하를 완화하기 위해 학습 기법이나 음성 데이터를 증강하는 방법이 사용 되어왔다. 하지만 이러한 방법은 중증 심각도에 대한 성능을 높이지는 못했다. 본 논문에서는 심각도 특징을 다방면으로 반영할 수 있는 음성 변환 모델 기반 음성 증강 기법을 제안한다. 이를 위해 디퓨전 기반의 음성 변환 모델을 사용한다. 또한, 음성 변환에 있어 원본 화자와 대상 화자를 모두 마비말 장애 환자의 음성으로 설정하여 운율, 조음, 호흡 등 다양한 특징을 반영하는 음성 증강 기법을 제안한다. 제안한 방식으로 증강한 데이터셋을 이용하여 딥러닝 기반의 심각도 자동 진단 모델을 학습하였다. 이 모델은 심각도 2에 대한 성능이 94.44%로 증강 이전의 성능인 38.89%보다 크게 향상되는 것을 확인 할 수 있었다.
more초록
Dysarthria, a motor speech disorder caused by brain conditions like stroke, brain tumors, and Parkinson’s disease, significantly impairs speech clarity, aecting physical and psychological health. The diagnosis and evaluation of dysarthria largely rely on subjective auditory assessments by doctors or clinical therapists, requiring ongoing professional training. The intelligibility of speech can vary depending on the abilities of the speaker and the listener, leading to variability in assessments. This limitation of subjective methods highlights the need for automated diagnostic systems for dysarthria. Dysarthria corpora often show a long-tail distribution with fewer examples of moderate severity compared to other severities, which can hinder the performance of automatic diagnosis models. Various learning techniques and speech data augmentation methods have been used to mitigate this, but these have not significantly improved performance for severe cases. This paper proposes a voice augmentation technique using a diusion-based voice transformation model, focusing on reflecting features like prosody, articulation, and respiration by setting both the source and target speakers as dysarthric patients. Using this augmented dataset, a deep learning-based automatic severity diagnosis model was trained, significantly improving the performance for severity level 2 from 38.89% to 94.44%.
more목차
1 서론 3
1.1 마비말 장애 심각도 자동 진단 모델 연구의 필요성 3
1.2 마비말 장애 음성 증강의 필요성 4
1.3 기여점 5
1.4 개요 6
2. 관련 연구 7
2.1 마비말 장애 음성 코퍼스 현황 7
2.2 마비말 장애 자동 평가 모델 9
2.3 훈련 데이터 클래스 간 불균형 해소 방법론 10
2.4 음성 데이터 증강 방법론 12
2.4.1 음성 변조 기반 음성 데이터 증강 방법 13
2.4.2 스펙트로그램 기반 음성 데이터 증강 방법 14
2.5 ASR 모델 학습을 위한 마비말 장애 음성 증강 방법론 15
2.6 디퓨전 기반 음성 변환 모델 16
2.6.1 디퓨전 16
2.6.2 음성 변환 모델 17
2.6.3 디퓨전 기반 음성 변환 모델 18
3 디퓨전 기반 음성 변환 모델을 활용한 마비말 장애 음성 증강 19
3.1 마비말 장애 음성 코퍼스 19
3.2 디퓨전 기반 음성 변환 모델 21
3.3 음성 변환 모델을 활용한 마비말 장애 음성 증강 방법 24
4 실험 결과 26
4.1 대규모 음성인식 모델 인코더를 활용한 딥러닝 기반 심각도 자동 진단 모델 26
4.2 실험 환경 및 방법 27
4.2.1 Diff-VC 모델 학습 방법 27
4.2.2 Whisper 기반 심각도 자동 진단 모델 학습 방법 29
4.2.3 실험 환경 29
4.2.4 베이스라인 30
4.2.5 평가 지표 31
4.3 실험 결과 32
4.3.1 각 데이터셋 별 훈련 데이터 특징 32
4.3.2 증강 전과 후의 심각도 자동 진단 모델 성능 비교 32
4.3.3 클래스 간 불균형 해소 방법에 따른 심각도 자동 진단 모델 성능 비교 33
4.3.4 변조 방법에 따른 심각도 자동 진단 모델 성능 비교 34
4.4 제거 연구 36
4.4.1 음성 변환 기반 증강 방법에 따른 심각도 자동 진단 모델 성능 비교 36
4.4.2 증강 데이터셋 규모에 따른 심각도 자동 진단 모델 성능 비교 38
4.4.3 증강 방법 모델 앙상블 기법에 따른 심각도 자동 진단 모델 성능 비교 39
5. 결론 41
Bibliography 42

