검색 상세

FastSpeech에 기반한 한국어 음성합성기 개발

The development of A Korean Speech synthesis based on FastSpeech,

이재윤 (서강대학교 정보통신대학원)

원문보기

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 구명완
  • 발행년도 2020
  • 학위수여년월 2020. 8
  • 학위명 석사
  • 학과 및 전공 정보통신대학원 데이터사이언스
  • UCI I804:11029-000000065394
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약moremore
TTS (text to speech)는 오랫동안 연구되어왔으며, 음성에 관련한 연구 중 합성의 영역으로 구분 지을 수 있다. 인공지능 기술이 신경망으로 발전하면서, End-to-End 간의 TTS는 합성된 음성의 품질을 크게 향상시켰다. 그 예로 Tacotron2를 들 수 있으며, Tacotron2의 경우 텍스트에서 mel-spectrogram을 생성한 다음 WaveGlow나 WaveNet과 같은 보코더를 사용하여 합성한다. 하지만 대부분의 TTS 모델에 관련한 연구는 영어를 기준으로 학습 및 평가가 되어 있으며, 한국어는...
TTS (text to speech)는 오랫동안 연구되어왔으며, 음성에 관련한 연구 중 합성의 영역으로 구분 지을 수 있다. 인공지능 기술이 신경망으로 발전하면서, End-to-End 간의 TTS는 합성된 음성의 품질을 크게 향상시켰다. 그 예로 Tacotron2를 들 수 있으며, Tacotron2의 경우 텍스트에서 mel-spectrogram을 생성한 다음 WaveGlow나 WaveNet과 같은 보코더를 사용하여 합성한다. 하지만 대부분의 TTS 모델에 관련한 연구는 영어를 기준으로 학습 및 평가가 되어 있으며, 한국어는 상대적으로 적은 편에 속한다. 본 연구에서는 Tacotron2와 FastSpeech를 기반으로 하여 한국어 TTS 모델을 구현하고, HyperParameter와 FastSpeech의 FFT Layer, Attention-Heads 개수에 따른 변화를 탐색했으며, MOS를 통해 모델 간 성능을 비교 평가했다. 먼저 Tacotron2의 경우 G2P를 적용한 모델과 기존의 텍스트(철자전사)를 적용한 모델간 큰 차이를 보이진 않았다. FastSpeech의 경우 Model-2이 다른 모델들에 비해 최소 0.07에서 최대 0.48 더 높은 편으로 나왔으며 이는 FFT Layers 8개와 FFT Attention Heads 4개 그리고 Embedding Dimension 384으로 지정했을 때 가장 좋은 성능을 나오는 것으로 확인되었다. Inference Time과 예측된 mel-spectrogram 시퀀스의 길이 사이의 관계를 통해 FastSpeech가 Tacotron2 보다 오디오 길이에 따른 추론 속도는 최대 약 20배 정도 더 빠른 것으로 확인되었으며, 연구 결과는 FastSpeech가 Tacotron2에 비해 오디오의 길이에 민감하지 않음을 나타낸다.
초록/요약moremore
Text-to-Speech (TTS) has been the topic of research for a long time, and it can be distinguished as synthetic aspect of voice-related study. With the advancement of artificial intelligence to neural network, end-to-end TTS significantly improved the quality of synthesized voice. Tacotron2, for ins...
Text-to-Speech (TTS) has been the topic of research for a long time, and it can be distinguished as synthetic aspect of voice-related study. With the advancement of artificial intelligence to neural network, end-to-end TTS significantly improved the quality of synthesized voice. Tacotron2, for instance, creates mel-spectrogram in the text then synthesizes the voice in mel-spectrogram by using a vocoder like WaveGlow or WaveNet. However, most of the studies related to TTS models are educated and evaluated in English, and such is relatively scarce in Korean. This study developed a Korean TTS model based on Tacotron2 and FastSpeech, explored the changes according to the number of FFT-Layers and Attention-Heads of HyperParameter and FastSpeech, and conducted a comparative evaluation on the performance of different models through MOS. First, in the case of Tacotron2, a model applied with G2P did not show a big difference from a model applied with the current text (orthographic transcription). In the case of FastSpeech, Model-2 had better performance at least by 0.07 and at most by 0.48 compared to other models, and the best performance was observed when hyperparameter was set at 8 FFT layers, 4 FFT attention heads, and embedding dimension of 384. Through the relationship between inference time and estimated sequence length of mel-spectrogram, FastSpeech was discovered to have up to about 20 times faster inference speed based on audio length than that of Tacotron2 and was verified to be relatively less sensitive.