클러스터 기반 손실 특징 복원 알고리즘에서의 최적 마스크 추정 방법
Toward optimal mask estimation in cluster based missing feature reconstruction
- 주제(키워드) 도움말 클러스터 기반 손실 특징 복원 알고리즘 , 이진 마스크 추정 , Target Source Cancellation
- 발행기관 서강대학교 일반대학원
- 지도교수 박형민
- 발행년도 2013
- 학위수여년월 2013. 8
- 학위명 석사
- 학과 및 전공 도움말 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000052624
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록/요약 도움말
최근에 여러 가지 기능을 탑재한 가전 제품이 다양하게 출시되면서 가장 자연스러운 의사 소통 수단인 음성인식이 새로이 각광받고 있다. 기존 음성 인식 환경과 달리 TV와 같이 마이크로폰과 화자의 거리가 먼 원거리 음성인식의 경우, 잡음과 반향의 영향이 매우 커서 하나의 마이크로폰만으로는 잡음과 반향 성분을 제거하기 어렵다. 이를 해결하기 위해 TSC와 Wiener filter를 기반으로 하는 알고리즘과 강인한 음성인식을 위해 클러스터 기반 손실 특징 복원 알고리즘을 사용하였다. 특징 복원 알고리즘에서 생성된 이진 마스크는 신뢰도가 높은 성분과 낮은 성분이 특정 주파수에 편중된 모양을 갖는데 이는 TSC와 Wiener filter의 입출력의 비율에 상수를 기준으로 이진 마스크를 생성하기 때문이다. 제안하는 방법은 반향 잡음 환경하에서 두 개의 마이크로폰을 통해 녹음된 음성신호의 클러스터 기반 손실 특징 복원 과정에서 하나의 기준으로 신뢰도를 평가하는 것이 아니라 주파수 마다 각각의 학습된 기준으로 신뢰도 이진 마스크를 생성한다. 이는 기존의 마스크를 이상적인 마스크와 더욱 가깝게 만들며 결과적으로 음성인식률을 향상시키는 것에 기여를 한다. 실험을 통해 제안하는 방법이 보다 정확하게 마스크를 추정하며 인식률도 향상이 됨을 확인하였다.
more초록/요약 도움말
In these days, many home electronic with various functions are launched and speech recognition, the simplest communication method, has attracted interest of people. In case of a long distance speech recognition, reverberant and noise become serious problem. Therefore, it is essential to develop a system to eliminate reverberant and noisy components using more than one microphone. This paper suggests a method which generates optimal binary mask in process of cluster based missing feature reconstruction even in the reverberant noisy environment. Since the conventional binary mask is created by using a constant integer threshold, reliable components and unreliable components are biased in specific frequency band. The proposed method employs trained threshold value on each frequency band. It makes the binary mask more similar to the ideal mask and raises the recognition performance.
more