한국어 맞춤형 성도 시각화 시스템
Vocal Tract Visualization System for Korean Speech
- 주제어 (키워드) 음운론 , 성도 , 음성 시각화 , 설명 가능한 인공지능 , 음성 평가 방법 , 음성 기호 , 시각화 방법론 , 언어 장애 진단 , Phonology , Vocal Tract , Speech Visualization , Explainable AI , Speech Assessment Methods Phonetic Alphabet , Visual Representation , Speech Disorder
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000081972
- UCI I804:11029-000000081972
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 한국어 마비말장애 환자의 성도를 시각화하기 위한 혁신적인 방법론을 제안한다. 제안된 방법은 향상된 Vocal Tract Lab (VTL)을 활용하여 한국어 음성 데이터를 시각적으로 표현하는 기술을 포함한다. 음성 파일을 Whisper 모델을 통해 텍스트로 전사한 후, 국제음성기호(IPA)로 변환하고 이를 Speech Assessment Methods Phonetic Alphabet (SAMPA)로 변환하는 일련의 과정을 통해 성도의 시각화를 구현하였다. 본 연구에서는 기존 VTL을 확장하여 한국어 음소의 특성을 반영할 수 있도록 다섯 개의 모음, 일곱 개의 이중모음, 여섯 개의 자음 및 여섯 개의 변형 자음 음소를 추가적으로 구현하였다. 제안된 방법론의 유용성은 전문가 평가를 통해 검증되었으며, 특히 언어 장애 진단 및 치료에 있어 실질적인 활용 가능성을 확인하였다. 다만, 폐쇄음(plosive)의 발성 시점(VOT) 조정에 제한이 있음을 인지하였다. 확장된 VTL 모델은 언어학적으로 소외된 언어의 연구 및 분석에 중요한 도구로 활용될 가능성을 보여주며, 언어 장애의 진단 및 치료를 위한 새로운 전략을 제시하는 데 기여할 것으로 기대된다.
more초록 (요약문)
This research introduces an innovative approach for visualizing the vocal tract of Korean dysarthria patients by employing an upgraded version of the Vocal Tract Lab (VTL). The methodology involves transcribing audio inputs using Whisper, converting the transcriptions to the International Phonetic Alphabet (IPA), and subsequently mapping them to the Speech Assessment Methods Phonetic Alphabet (SAMPA). The extended VTL system generates precise visual representations of Korean speech through the integration of additional linguistic elements, including five vowels, seven diphthongs, six consonants, and six modified consonant phonemes. Expert evaluations affirm the effectiveness of this system in addressing speech disorders, despite challenges in optimizing Voice Onset Time (VOT) for plosives. This enhanced VTL framework demonstrates significant potential for exploring underrepresented languages and provides a robust tool for clinicians and researchers to refine diagnostic and therapeutic methodologies for speech disorders.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.2 논문의 구성 3
제 2 장 관련 연구 5
2.1 성도 시각화 연구 5
2.1.1 성도의 동적 움직임 시각화 연구 5
2.1.2 조음 기관 분석을 통한 고해상도 성도 시각화 모델링 8
2.1.3 임상 및 응용 연구 10
2.2 Vocal Tract Lab 11
제 3 장 제안하는 모델 15
3.1 전체 구조도 설명 15
3.2 음성-텍스트(S2T) 전사 과정 17
3.3 확장된 Vocal Tract Lab 21
3.4 Text To SAMPA 23
3.5 전문가 검증 30
제 4 장 결과 34
4.1 실험 사용 데이터셋 35
4.2 Vocal Tract Lab의 한국어 확장 전후 시각화 비교 36
4.3 전문가 검증 결과 37
4.4 원어민 선호도 조사 44
4.5 마비말장애 환자의 시각화 비교 45
제 5 장 논의 및 결론 47
5.1 논의 47
5.2 결론 48
5.3 한계 및 향후 계획 50
제 6 장 참고 문헌 52

