검색 상세

Preprocessing Based on Maximum Likelihood of a Time-Varying Speech Distribution for Robust Speech Recognition

강인 음성인식을 위한 시변 음성분포의 최대 우도 기반 전처리

초록/요약

With significant improvements in automatic speech recognition (ASR) in recent years, a variety of smart devices with ASR have been launched. However, robust speech recognition in the real world is still a challenging task because it must be able to respond correctly to a user's voice command in various environments. In far-field speech recognition, which controls smart devices by voice commands at long distances, the ASR performance is highly degraded because background noise and reverberation by room acoustics are entered into the microphone with the user's voice commands. In addition, devices that combine microphone and loudspeaker, such as smart speakers and smart TVs, generate an acoustic echo caused by their own playback sounds, distorting the target speech. In this thesis, we propose methods to remove acoustic echo, background noise, and reverberation that may occur in smart devices using a principle that maximizes likelihood function under the assumption that the output signal follows a complex Gaussian distribution with time-varying variances. Firstly, we presents batch and online algorithms of a stereo acoustic echo cancellation (SAEC) method. In SAEC, the non-uniqueness problem causes performance degradation, especially for highly coherent far-end signals. In our method, this problem can be avoided without an additional decorrelation preprocessor or multi-microphone by overestimating far-end echoes and compensating for the overestimated inter-channel-correlated echo to obtain a desired echo-canceled signal. In addition, our method is based on the maximum likelihood estimation (MLE) criterion of the echo-canceled signal under the assumption that the signal in the time-frequency domain follows a zero-mean complex Gaussian distribution with a time-varying variance. Furthermore, a variable forgetting factor based on the cross spectral density (CSD) between the echo-canceled signal and a far-end echo is presented in the online algorithm to improve the convergence of adaptive filters with a high cancellation performance when converged. Experimental results under various conditions demonstrate that the proposed method can successfully perform SAEC even in the presence of inter-channel correlation, double-talk, and abrupt echo path changes. Secondly, we derive a beamforming method, which we refer to as the maximum-likelihood distortionless response (MLDR) beamformer, based on the MLE of a linear filter, with a distortionless constraint on the steering direction, assuming that the optimal beamformer outputs in the time-frequency domain follow a zero-mean complex Gaussian distribution with time-varying variances. By optimizing the beamformer output variances as well as the filter alternately with iterative update rules, and also by using the moving average of output powers at adjacent frames for robust estimation of an output variance, the MLDR beamformer may minimize the power of a relatively accurate noise component at the output, which resulted in better recognition performance than conventional beamformers. In addition, it can be further improved by initializing the output variances to averaged powers of a neural-network(NN)-masked input signal to estimate target speech powers, which achieved even better performance than compared beamformers exploiting trained NNs. Thirdly, we derive batch and online beamforming with steering vector estimation. Although MLDR beamformer achieved promising performance, it requires an accurate steering vector for a target speaker in advance like many kinds of beamformers. In this paper, we present a method for steering vector estimation (SVE) by replacing the noise spatial covariance matrix estimate with a normalized version of the variance-weighted spatial covariance matrix estimate for the observed noisy speech signal obtained by the iterative update rule in the MLDR beamforming framework. In addition, an MLDR beamforming method without a steering vector for a target speaker given in advance is presented where the SVE and the beamforming are alternately repeated. Furthermore, an online algorithm based on recursive least squares (RLS) is derived to cope with various practical applications including time-varying situations, and the power method is introduced for further efficient online processing. Finally, We present batch and online convolutional MLDR beamforming with SVE for simultaneous beamforming and dereverberation. For simultaneous beamforming and dereverberation for robust recognition of noisy reverberant speech, the WPE dereveberation and the MLDR beamforming with SVE are jointly optimized based on the MLE assuming a zero-mean Gaussian signal with time-varying variances. Moreover, input signals masked by a NN for estimating target speech or noise components can be used to further improve the presented beamformers. Experimental results on the CHiME-4 and REVERB challenge datasets demonstrate the effectiveness of the presented method.

more

초록/요약

최근 몇 년간 자동 음성인식 기술이 크게 개선되면서, 이를 탑재한 다양한 스마트 기기들이 출시되었다. 그러나 실세계에서의 음성인식은 다양한 환경에서 사용자의 음성 명령에 올바르게 응답할 수 있어야하기 때문에 여전히 어려운 작업이다. 원거리에서 음성 명령으로 스마트 기기를 제어하는 원거리 음성인식에서는 사용자의 음성 명령으로 실내 음향에 의한 배경 잡음과 반향이 마이크에 입력되기 때문에 음성인식 성능이 크게 저하된다. 또한 스마트 스피커 및 스마트 TV와 같이 마이크와 스피커가 결합된 장치는 자체 재생 사운드로 인해 음향 에코를 생성하여 목표 음성을 왜곡시킨다. 본 논문에서는 출력 신호의 분산이 시간에 따라 변하는 복소 가우스 분포(complex Gaussian distribution)를 따른다는 가정하에, 우도 함수를 최대화하는 원리를 이용해 스마트 기기에서 발생할 수 있는 음향 에코(acoustic echo), 배경 잡음, 그리고 잔향(reverberation)을 제거하는 방법을 제안한다. 첫 번째로, 우리는 스테레오 음향 에코 제거 방법에 대한 배치(batch) 및 온라인(online) 방법을 제안한다. 스테레오 음향 에코 제거에서 비 고유성(non-uniqueness) 문제는 원단 (far-end) 신호간의 상관도가 매우 높을 경우 성능 저하를 유발한다. 제안하는 방법에서는원단 에코(far-end echo)를 과대 추정 후, 과대 추정된 채널 간 상관 에코를 보상함으로써 원하는 에코 제거된 신호를 얻게 되며, 원단 신호간의 상관도를 줄이기 위한 추가적인 역 상관 전처리기나 다중 마이크를 이용하지 않고 비 고유성 문제를 피할 수 있다. 제안하는 방법은 시간-주파수 영역의 에코 제거된 신호가 시간에 따라 변하는 평균이 0인 복소 가우스 분포를 따른다는 가정 하에 최대 우도 추정(maximum likelihood estimate) 기준에 기반하여 에코 제거된 신호를 추정한다. 또한 온라인 알고리즘에서는 에코 제거된 신호와 원단 에코 사이의 교차 스펙트럼 밀도를 기반으로 하는 가변 망각 계수를 통해 필터 수렴 이후의 높은 에코 제거 성능과 함께 적응 필터의 수렴성을 향상시킨다. 다양한 조건에서의 실험에서 제안하는 방법이 원단 신호간의 채널간 상관 관계, 이중 대화(double-talk) 및 급격한 에코 경로의 변화 상황에서도 스테레오 에코 제거를 성공적으로 수행할 수 있음을 보였다. 두 번째로, 우리는 조향 방향에 대한 무왜곡 제약 조건(distortionless constraint)하에 시간에 따라 변하는 출력 신호의 분산을 갖는 평균이 0인 복소 가우스 분포에 대한 최대 우도 추정 기반의 MLDR(maximum-likelihood distortionless response) 빔포밍(beamforming) 방법을 제안한다. 반복 업데이트 규칙을 통해 빔포머 출력 분산과 빔포밍 필터를 번갈아 최적화하며, 강인한 출력 분산의 추정을 위해 인접 프레임의 출력 분산에 대한 평균을 이용함으로써 MLDR 빔포머는 상대적으로 정확히 추정된 잡음의 파워를 최소화할 수 있으며, 이로 인해 기존 빔포머보다 더 나은 음성인식 성능을 보였다. 또한, 목표 음성 파워를 추정하기 위해 신경망 기반 목표 음원 마스크를 적용한 입력 신호의 평균 파워를 이용하며, 이를 출력 분산의 초기값으로 사용함으로써 훈련된 신경망을 이용하는 다른 빔포머보다 더 나은 성능을 보였다. 세 번째로, 조향 벡터(steering vector) 추정을 겸한 배치 및 온라인 빔포밍을 제안한다. MLDR 빔포머는 높은 성능을 달성하였으나, 다른 빔포머들과 마찬가지로 목표 화자에 대한 정확한 조향 벡터가 필요하다. 이 논문에서는 MLDR 빔포머의 반복 업데이트 규칙에 의해 얻어진 분산 가중 공간 공분산 행렬 추정값을 정규화하여 잡음 공간 공분산 행렬 추정치로 대체함으로써 조향 벡터를 추정하는 방법을 제안하며, 조향 벡터가 미리 주어지지 않았을 때에도 조향 벡터 추정과 빔포밍을 교대로 반복하는 방법을 통해 동작할 수 있는 방법을 제안하였다. 또한 시변 상황을 포함한 다양한 실제 응용에 대응하기 위해 재귀 최소 제곱 기반의 온라인 알고리즘을 유도하며, 파워 방법(power method)의 도입을 동한 더욱 효과적인 온라인 처리 방법을 제안하였다. 끝으로, 빔포밍과 잔향 제거를 동시에 수행하기 위해 배치 및 온라인의 조향 벡터 추정을 겸한 컨볼루셔널(convolutional) MLDR 빔포밍 방법을 제안한다. 잡음 및 잔향이 존재하는 환경에서의 강인한 음성인식을 위해, WPE 기반 잔향제거와 조향 벡터 추정을 겸한 MLDR 빔포머를 최대 우도 추정에 기반하여 동시에 최적화한다. 또한, 목표 음성 혹은 잡음 성분을 추정하기 위해 입력 신호에 신경망 마스크를 적용함으로써 제안된 빔포머를 더욱 개선시킬 수 있음을 보였다. CHiME-4 및 REVERB challenge 데이터 세트에 대한 실험 결과를 통해 제안된 방법이 효과적임을 보였다.

more