독립벡터분석 및 피드포워드 네트워크 기반의 강인한 음성인식을 위한 전처리 알고리즘
Speech Preprocessing Algorithm of Independent Vector Analysis Using Feed-Forward Network for Robust Speech Recognition
- 주제(키워드) Speech Recognition , Feed-Forward Network , Independent Component Analysis , Independent Vector Analysis , Minimal Distortion Principle , Minimum Power Distortionless Distance Beamformer , Missing Feature Technique
- 발행기관 서강대학교 일반대학원
- 지도교수 박형민
- 발행년도 2012
- 학위수여년월 2012. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000047141
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작원 보호를 받습니다.
초록/요약
최근에 발전하는 기술력을 기반으로 스마트폰에서 음성의 인식률 또한 크게 향상되어 애플사의 제품인 아이폰의 경우, 음성을 문자로 변환해주는 ‘시리’라는 어플리케이션을 소비자에게 제공하고 있다. 또한 최근에 본격적으로 IPTV가 각 가정에 보급되고 있으며, 따라서 음성을 통한 IPTV의 제어나 각종 가전제품의 음성을 통한 원거리 제어와 같은 응용 분야에 활용하고자 음성인식을 위한 음성신호 전처리기의 성능을 향상시키는 것이 음성신호처리 분야의 화두가 되고 있다. 그러나 음성인식기의 사용 환경은 대부분 실내의 잡음하 환경이고, 일반적으로 사용자와 인식기의 거리가 멀리 떨어진 경우가 많기 때문에 주위 잡음원들에 의한 잡음 신호와 반향에 의해 신호가 크게 왜곡된다. 불행히도 현재까지 음성인식 기술은 이와 같은 사용자 환경에서의 음성인식 문제에 효과적인 대안을 제시하지 못하고 있다. 따라서 본 논문에서는 강인한 음성인식을 위하여 기존의 좋은 음원 분리 성능을 보인다고 알려진 독립벡터분석에 실내의 심한 반향 환경을 고려한 피드포워드 네트워크를 적용하여 심한 반향 환경에서도 효과적으로 원하는 음성을 분리할 수 있는 알고리즘을 제안한다. 그리고 피드포워드 네트워크로 인해 복잡해진 학습 규칙 때문에 어려워진 수렴 형태를 최소왜곡원리를 통해 보정하여 알고리즘의 원활한 수렴을 꾀하였다. 또한 이를 강인한 음성인식에 기여하기 위한 전체 시스템을 구성하는 과정에서 minimum power distortionless response (MPDR) 빔포머 알고리즘과 클러스터 기반 손실 특징 복원 알고리즘을 추가하였다. 제안된 알고리즘의 평가를 위해서 다양한 음성 및 위치, 다양한 신호 대 방해요소 비, 그리고 다양한 반향시간에 따라 가상의 실내 환경에서 반복 실험한 결과를 기존의 알고리즘들과 비교하여 성능을 측정한다. 그 결과, 기존의 독립성분분석 및 독립벡터분석보다 제안한 알고리즘이 더 좋은 성능을 나타냄을 확인할 수 있다.
more초록/요약
This thesis describes an algorithm which is preprocessing of independent vector analysis (IVA) using feed-forward network for robust speech recognition. In the framework of IVA, a feed-forward network is able to be used as a separating system to accomplish successful separation of highly reverberated speech mixtures. In order to stable converge of modified complex learning rule, this algorithm adapts minimal distortion principle (MDP). For robust speech recognition, we make use of the minimum power distortionless response (MPDR) beamformer and the cluster-based missing feature reconstruction based on log-spectral features of separated speech in the process of extracting mel-frequency cepstral coefficients. Experimental results demonstrate that the proposed method enhances both signal-to-interference ratio and speech recognition performance in mixed and reverberant environments significantly.
more