검색 상세

Efficient Online Target Speech Extraction Using DOA-Constrained Independent Component Analysis of Stereo Data for Robust Speech Recognition

초록/요약

본 학위논문에서는 강인음성인식을 위한 전처리로 사용되는 효율적인 실시간 목표음성추출 방법을 제안한다. 음성인식 인터페이스를 활용하는 대부분의 경우 목표화자의 위치가 마이크로부터 상대적으로 가까운 곳에 있기 때문에, 음성신호의 전달과정에서 반향에 의한 효과가 크지 않고 목표화자의 위치도 쉽게 파악할 수 있다. 이러한 상황에서는 목표화자의 방향으로 널을 형성하여 효과적으로 잡음을 추정할 수 있다. 이렇게 추정되는 잡음과 독립인 목표음성을 추출하기 위한 가중치는, 수정된 독립성분분석의 비용함수에 최소왜곡원리를 적용하여 유도되는 학습규칙을 이용하여 결정한다. 특별히 역동적으로 변하는 음성의 세기에 대해서도 안정적인 수렴을 도모하기 위한 비홀로노믹 구속 및 평활화된 입력파워 추정치의 정규화 기법과 함께, 기존의 독립성분분석에 비해 훨씬 적은 연산복잡도의 실시간 자연경사 학습규칙이 유도된다. 게다가, 연산부담을 더욱 감소시키고 수렴을 빠르게 하기 위하여 입력 데이터로 스테레오 혼합신호가 고려된다. 비록 본 방법은 과소결정 문제에 시달릴 수 있긴 하지만, 성공적인 목표음성 추정을 위한 최대 신호대잡음비 빔포머가 얻어지도록 계수가 학습된다. 여러 조건에 대한 실험결과들은 제안하는 방법의 유효성을 입증한다.

more

초록/요약

This thesis describes an efficient online target-speech-extraction method used as a preprocessing step for robust automatic speech recognition (ASR). Because a target speaker is located relatively close to microphones in many ASR applications, acoustic paths to microphones are moderately reverberant, and the target speaker direction can easily be estimated. In this situation, noise estimation is effectively performed by forming a directional null to the target speaker. Required weights for extracting target speech, independent of the estimated noise, are then determined using an adaptation rule derived from a modified version of the cost function for independent component analysis (ICA), while retaining the minimal distortion principle. In particular, an online natural-gradient learning rule with a nonholonomic constraint and normalization by a smoothed power estimate of the input signal is derived for stable convergence, even for dynamically changing speech levels, with much less computational complexity than conventional ICA. Furthermore, stereo mixtures are considered as input data for further reduction of computational loads and fast convergence. Although the method may suffer from the underdetermined problem, the weights are adapted to obtain signal-to-noise-ratio-maximization beamformers for successful target speech estimation. The experimental results obtained for various conditions demonstrate the effectiveness of the proposed method.

more