반향환경에서의 음원 분리 및 손실 특징 복원 기술을 이용한 강인한 음성인식
- 주제(키워드) 강인한 음성인식 , 음성향상 , DUET , 손실특징이론 , 반향환경
- 발행기관 서강대학교 일반대학원
- 지도교수 박형민
- 발행년도 2011
- 학위수여년월 2011. 8
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000046844
- 본문언어 한국어
- 저작권 서강대학교의 논문은 저작권보호를 받습니다.
초록/요약
실제 환경에서 이루어지는 음성인식은 대부분 실내반향이나 잡음으로 인한 성능저하 문제를 피할 수 없다. 이러한 문제를 해결하기 위해 여러 가지 음원 분리 및 향상기술이 연구되어 왔는데, 두 귀 신호처리에 기반한 반향환경에 적합한 최신 음원 분리 기술로 revised DUET이 있다. 이를 음성인식 전처리로 활용하면 청감상의 성능향상과 인식성능의 향상이 비례하지 않는 문제가 발생하는데, 이는 이진마스크로 신호를 분리하는 과정에서 상당량의 정보가 손실되기 때문이다. 이러한 문제점을 보완하기 위해 mel-frequency cepstral coefficients(MFCC) 특징추출단계에서 클러스터에 기반한 손실특징복원을 수행하는 방법을 제안한다. 실험결과를 보면 제안하는 방법이 정보손실에 기반한 음원분리를 통해 얻어진 관심음원의 음성인식 성능을 향상시키는 것을 확인할 수 있다.
more초록/요약
Speech recognition in real-world environments usually encounters with significant degradation of recognition performance due to noise and reverberation. To solve this problem, many kinds of source separation and enhancement algorithms have been developed such as revised DUET algorithm which is the latest algorithm using binaural cue for reverberant environments. Although we employ this algorithm as pre-processing of speech recognition, overall performance is not improved as much as the source separation performance is improved in most cases because considerable amount of information is missing after applying binary mask. To solve this problem, we propose an algorithm which employs the cluster-based missing feature reconstruction technique based on log-spectral features of enhanced speech in the process of extracting mel-frequency cepstral coefficients. Experimental results show that the proposed algorithm improves recognition performance for enhanced target speech by using source separation algorithm based on data missing.
more