검색 상세

반향 환경에서의 강인한 음성인식을 위한 음성의 하모닉 구조 및 파워 비율 기반 정상 성분 억제 방법

A stationary components suppression method based on the harmonic structure of speech and power ratio for robust speech recognition in reverberant environments

초록/요약

본 논문에서는 반향 환경에서의 강인한 음성인식을 위한 단일 채널 및 다채널 전처리 방법을 제안하였다. 반향 환경에서의 음성 인지를 위한 인간의 청각 정보처리 특성인 ‘선행 효과(precedence effect)’에 근거한 기존의 정상 성분 억제 방법은 반향이 심해질수록 음성인식기의 음향모델 학습 환경과 실제 반향 환경에서의 처리 간의 차이로 인해 인식률이 크게 악화된다. 이러한 문제점을 해결하기 위하여 유성음의 고유한 특징인 하모닉 구조(harmonic structure)를 이용하여 환경에 따른 불일치를 완화하여 인식률을 향상할 수 있음을 보였다. 그리고 감마톤 채널(gammatone channel) 영역에서의 채널 파워 비율을 이용, 무성음의 특징을 살림으로써 반향이 심해지는 환경에서 무성음의 특징들이 유성음의 반향 성분들로 인해 왜곡되는 기존 방법의 문제점을 완화하여 성능을 향상시켰다. 그리고 인간의 두 귀 신호처리 모델을 적용, 단일 채널에서의 제안 방법을 다채널 방법으로의 확장을 통해 더 우수한 성능을 보일 수 있음을 확인하였다.

more

초록/요약

This thesis proposes a monaural and binaural preprocessing method for robust speech recognition in reverberant environments. A existing method is based on the precedence effect, which is a characteristic of human auditory processing for speech recognition in reverberant environments. However, since the difference between the training environments of acoustic models and real world reverberant environments, high reverberant conditions result in poor recognition performance. The proposed method shows that this problem can be solved and high recognition performance can be achieved by reducing the difference using the unique feature of speech, harmonic structure. Furthermore, the channel power ratio of the gammatone channel domain was used to alleviate the problems of existing methods. Specifically, by enhancing the feature of unvoiced speech, its distortion induced by the reverberation of voiced speech in strongly reverberant environments was alleviated. Finally by applying the binaural processing model, speech recognition performance was increased through expansion of the single channel method proposed above to a multi-channel method.

more