감정 강도와 얼굴 이미지 특징을 반영한 Diffusion 기반 Text-to-Speech 음성 합성
Diffusion-based Text-to-Speech Synthesis Incorporating Emotion Intensity and Facial Image Features
- 주제어 (키워드) 음성 합성 , 확산 모델 기반 텍스트 투 스피치 , 감정 강도 조절 , 얼굴 이미지 특징 , 제로샷 학습 , 감정적 음성 합성 , 분류기 없는 확산 가이던스 , Speech Synthesis , Diffusion-Based Text-to-Speech , Emotion Intensity Control , Facial Image Features , Zero-shot Learning , Emotional Speech Synthesis , Classifier-Free Diffusion Guidance
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000079319
- UCI I804:11029-000000079319
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
This study proposes a Diffusion-Based zero-shot Text-to-Speech (TTS) model capable of reflecting facial features and synthesizing emotionally rich speech with adjustable emotion intensity. By leveraging diffusion techniques, the model overcomes the limitations of conventional TTS systems, enabling learning even with datasets lacking emotion labels. This approach allows the integration of emotion-labeled datasets such as CREMA-D and MELD with non-emotion-labeled datasets like LRS3, effectively addressing the scarcity of datasets that fully integrate audio, visual, and emotional data. The proposed model generates high-quality, speaker-independent speech, making it suitable for applications such as adaptive voice generation for virtual characters. Furthermore, it provides emotionally expressive speech for visually impaired users, enabling a more vivid auditory experience in webcomics and other media content. The model’s ability to control emotion intensity has been validated through quantitative evaluations, while its capacity to reflect facial features and express emotions was demonstrated through qualitative evaluations. Notably, the Mean Opinion Score (MOS) results for emotional expression showed a high score of 4.77 for the "Sad" emotion, highlighting the model’s effectiveness in synthesizing expressive and contextually relevant speech.
more초록 (요약문)
본 연구에서는 디퓨전 기반의 제로샷 텍스트-투-스피치 모델을 제안한다. 이 모델은 얼굴 이미지의 특징을 반영할 수 있으며 감정 강도를 조절하여 감정 표현이 풍부한 음성을 합성할 수 있다. 딥러닝 기술 중 특히 디퓨전을 활용하여 기존 TTS 시스템이 가진 한계를 극복하고, 감정 레이블이 없는 데이터셋으로도 학습이 가능해진다. 이를 통해 감정 레이블이 포함된 CREMA-D, MELD 데이터셋 외에도 감정 레이블이 포함되지 않은 LRS3 데이터셋을 조합하여 모델을 학습시킴으로써 오디오, 비주얼, 감정이 모두 통합된 데이터셋이 부족하다는 점을 극복하였다. 제안된 모델은 고품질의 화자 독립적 음성을 생성할 수 있어 가상 캐릭터의 음성을 적응적으로 생성하는 등의 응용에 적합하다. 또한, 시각 장애를 가진 사용자들에게 감정 표현이 풍부한 음성을 제공함으로써 웹툰 및 기타 미디어 컨텐츠에서 보다 생동감 있는 청각적 경험을 가능하게 한다. 제안하는 모델의 감정 강도 조절 능력을 정량적 평가를 통해 입증하였으며, 정성적 평가를 통해 얼굴 특징 반영과 감정 표현 능력을 검증하였다. 특히, 생성된 음성의 감정 표현에 대한 Mean Opinion Score (MOS) 결과에서 "슬픔" 감정의 경우 4.77로 높은 점수를 보여주었다.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.2 논문의 구성 3
제 2 장 관련 연구 4
2.1 Score-based Diffusion Model 4
2.2 분류기 없는 확산 가이던스 6
2.3 Grad-TTS 7
2.4 Face-TTS 9
제 3 장 제안하는 모델 11
3.1 모델 설계 및 손실 함수 12
3.1.1 Text Encoder 및 Duration Predictor 13
3.1.2 Diffusion Decoder 15
3.1.3 손실 함수 18
3.2 감정 강도 제어 샘플링 설계 19
제 4 장 실험 및 결과 21
4.1 실험 환경 21
4.1.1 데이터셋 21
4.1.2 데이터 전처리 23
4.1.3 학습 전략 및 설정 24
4.2 결과 및 평가 25
4.2.1 감정 강도 제어 능력 25
4.2.2 TTS 품질 평가 및 선호도 실험 27
제 5 장 결론 33
5.1 결론 및 논의 33
5.2 한계 및 향후 연구 34
제 6 장 참고 문헌 36