검색 상세

DUET 기반한 관심음원 향상 방법

Target Speech Enhancement Based on Degenerate Unmixing and Estimation Technique for Real-World Applications

초록/요약

실제 음성 인식 환경에서, 관심 음원은 여러 잡음신호와 혼합되어 자동 음성인식 시스템(ASR)의 마이크로폰에 입력된다. 이로 인해, 음성 인식 성능저하가 나타나게 되므로 여러 잡음이 혼합된 환경에서 관심 음원을 향상시켜 이러한 잡음에 강인한 음성인식 시스템을 만드는 것이 이 분야에 주 관심사이다. 본 논문에서는 DUET(Degenerate Unmixing and Estimation Technique)에 기반한 관심음원 향상 방법에 대해 제안한다. DUET은 단지 두 개의 혼합 신호만을 이용해 음원의 개수에 상관없이 분리가 가능한 장점이 있으나, 미리 음원의 개수를 알고 있어야 하고 모든 음원에 대한 감쇄 및 시간지연 값을 알아야 분리가 가능하기에 실제 환경에서 적용하기 어렵다. 제안한 방법은 혼합신호에서 오직 하나의 관심 음원 신호만을 추출함으로써 기존 DUET이 갖는 문제점을 해결하여 실제 환경에서 사용하기 매우 적합하다. 실험 결과에서 제안한 방법은 기존 DUET과 비교해 볼 때 관심 음원의 복원에 필요한 파라미터를 매우 빠른 속도로 수렴하는 것은 물론이거니와 뛰어난 잡음 제거 성능을 나타냄을 확인할 수 있다.

more

초록/요약

In real speech recognition environments, target speech have been mixed with multiple noise sources and then captured by microphones of automatic speech recognition (ASR) systems. As the result, ASR systems suffer degradation in performance. Then, the target speech enhancement in a multiple noise source environment has been a key focus in robust speech recognition research. An algorithm for target speech enhancement based on degenerate unmixing and estimation technique (DUET) is described. Although the DUET can accomplish source separation only from two mixtures, the requirements of knowing the number of sources in advance and of estimating the attenuation and delay parameters for all sources prevent it from being used in real-world applications. Circumventing these requirements, the described algorithm is useful for speech enhancement where only one target speech should be extracted. Experimental results show that the algorithm provides much faster convergence of all the required parameters and noise suppression performances that are better than or comparable to the DUET.

more