확장 음소정보기반 Lattice-free Maximum Mutual Information 음향모델
- 주제(키워드) 음성인식 , 음향모델 , 학습 목적식 , LF-MMI , 음소모델
- 발행기관 서강대학교 일반대학원
- 지도교수 김지환
- 발행년도 2019
- 학위수여년월 2019. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000064222
- UCI I804:11029-000000064222
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
음성인식 시스템은 음향모델, 언어모델, 그리고 두 모델을 연결하는 디코딩 네트워크로 구성된다. 본 논문에서는 세 구성요소 중 음향모델을 중심으로 살펴본다. 음향 모델은 최대 우도 추정(MLE, Maximum Likelihood Estimation)을 통해 모델 학습을 수행한다. 학습과정에 사용되는 수식은 다음과 같다. p(w,o)=p_θ (o│w) p_θ (w)=p_θ (o│w)p(w). 수식은 언어 정보와 음향 정보의 결합 확률 분포를 표현하고 있으며, 이때 사전 확률 p(w)는 음향모델 정보와 독립이라는 가정을 통해 다음과 같이 최대 우도 추정이 수행된다. θ ̂=argmax_θ p_θ (w,o)=argmax_θ p_θ (o|w). 위 식은 우도(Likelihood)만을 최대화하는 목적식으로 표현되고 있다. 다른 관점에서는 조건부 최대우도추정(Conditional MLE)을 수행하는 방법이 제시되었다. 이 경우, 학습 목적식으로 MMI(Maximum Mutual Information)가 사용되며 사용되는 수식은 다음과 같다. 〖θ ̃=argmax〗_θ p_θ (w|o)=〖argmax〗_θ (P_θ (o|w))/(P_θ (o)). 이전 수식과 비교하여 확률식 p_θ (o|w)와 (p_θ (o|w) )/(p_θ (o)) 의 차이를 살펴볼 수 있으며, 두 방법의 차이는 분모 부분의 확률 정보 유무에 따라 달라짐을 알 수 있다. MMI 학습 기준을 사용하는 음향모델은 분모 확률을 계산하는 방법에 따라 연구가 진행되었다. MMI 학습기준을 사용하는 기존 음향모델에서는 음성인식결과 후보군을 저장하는 단어 격자(Lattice)구조를 사용하여 분모 확률을 계산하였다. 이후 단어 격자 구조를 사용하지 않고 음소 수준에서 분모 확률을 계산하는 LF-MMI(Lattice-Free MMI) 모델이 제시되었다. LF-MMI 모델은 음향모델 학습 과정에서 음소 기반 언어모델(이후 음소모델)을 사용하여 분모 확률을 계산하는 것이 특징이다. 하지만, 음향모델 학습 단계에 음소 모델이 구성되는 특징으로 인하여, 음소 모델 학습에 사용되는 자료는 음성 학습자료의 음소 정보만을 기반으로 하고 있다. 이로 인해 음소모델은 음성 정보에만 의존하여 학습되게 되며, 음성인식의 최종목표인 언어 정보를 표현할 때, 음성 정보로 표현된 정보 의존도가 상대적으로 높아져 실재 표현 되어야할 언어 정보와 차이를 갖는 한계를 가질 수 있다. 따라서, 본 논문은 언어모델 학습에 사용되는 정보를 음향모델 학습에 사용하여 음소모델을 개선하는 확장 음소정보 기반 LF-MMI 음향모델 학습 방법을 제안한다. 이 방법은 MMI 방법으로 음향모델을 학습할 때, 언어 모델의 단어 정보가 학습과정에 사용되는 점에서 착안하여 음소 수준에서 변용하였다. 음성 정보와 비교하여 대규모로 수집 되어있는 언어 정보인 말뭉치에서 음소 정보를 특정 비율 추출하여 음소 모델을 구성한다. 이를 통해 앞서 제기한 한계를 개선하며, 실험 환경에 따라 음절오류율이 약 4%에서 30%까지 상대적 개선을 보인다.
more