검색 상세

다중 헤드와 데이터 증강을 통한 아동 말소리장애 자동 진단

Automatic Children Speech Sound Disorder Detection Using Multi-Head Model and Data Augmentation

초록 (요약문)

Addressing Speech Sound Disorders (SSD) during early developmental stages in children is crucial for preventing potential cognitive and communicative challenges later in life. Existing automatic SSD detection systems often fail to account for age and speaker biases, leading to reduced diagnostic accuracy. These conventional methods, which primarily rely on basic acoustic features, struggle to effectively mitigate such biases. In particular, age-specific pronunciation characteristics and speaker-specific vocal traits significantly influence diagnostic outcomes, and failing to address these biases hinders the generalization performance of machine learning models. To overcome these limitations, this study proposes a bias-mitigation approach. To address age bias, we employ a shared feature extractor to process speech inputs, followed by an age-dependent classifier utilizing a multi-head architecture for final predictions. To reduce speaker bias, we introduce a data augmentation technique that mixes speech samples from various speakers within the same age group, preserving key SSD-related features while enhancing model robustness. Evaluation on a Korean children’s SSD dataset shows significant improvements over traditional methods. These findings highlight the system’s potential to improve diagnostic performance and advance speech pathology research.

more

초록 (요약문)

아동의 초기 발달 단계에서 말소리장애(Speech Sound Disorder, SSD)를 해결하는 것은 이후 발생할 수 있는 인지적 및 의사소통적 문제를 예방하는 데 매우 중요하다. 기존의 자동 말소리장애 탐지 시스템은 나이 및 화자 편향을 고려하지 않아 진단 정확도가 낮아지는 문제가 있다. 단순히 음성 특징만을 활용하는 기존 방법으로는 이를 효과적으로 해결하기 어렵다. 특히, 나이에 따른 발음 특성과 화자 고유의 음성 특성이 진단 결과에 영향을 미쳐, 편향을 제거하지 않으면 학습 모델의 일반화 성능이 저하된다. 본 논문에서는 이러한 한계를 해결하기 위해 편향 완화(debiasing) 기법을 적용한 말소리장애 탐지 시스템을 제안한다. 나이 편향을 완화하기 위해, 공유된 feature extractor를 사용하여 음성 입력을 처리하고, 나이 기반 분류기(age-dependent classifier)가 최종 결정을 내리는 다중 헤드(multi-head) 구조를 사용한다. 동일 연령 그룹 내 여러 화자의 음성 샘플을 혼합하여 말소리장애 주요 특징을 유지하는 데이터 증강 기법을 활용하여 화자 편향을 줄이고자 한다. 한국어 아동 말소리장애 데이터셋을 기반으로 제안된 시스템을 평가한 결과, 기존 방법에 비해 진단 성능이 유의미하게 개선되고, 정확하고 신뢰할 수 있는 말소리장애 탐지 기능을 보인다.

more

목차

1 서론 1
2 관련연구 4
2.1 신경망을 활용한 오디오 분류 4
2.2 신경망을 활용한 말소리장애 진단 5
2.3 데이터 증강 기법 7
3 다중 헤드와 데이터 증강을 통한 나이 및 화자 편향 완화 8
3.1 나이 편향 완화를 위한 다중 헤드 8
3.2 화자 편향 완화를 위한 데이터 증강 기법 11
4 실험 및 분석 13
4.1 데이터셋 13
4.2 데이터셋 정제 14
4.3 실험 환경 17
4.4 실험 결과 19
5 결론 및 향후 연구 23
References 24

more