임베디드 영어 연속음성인식을 위한 카테고리 기반 소용량 언어모델
Category-based Small Footprint Language Model for Embedded English Continuous Speech Recognition
- 주제(키워드) 언어모델
- 발행기관 서강대학교 일반대학원
- 지도교수 김지환
- 발행년도 2010
- 학위수여년월 2010. 2
- 학위명 석사
- 학과 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000045962
- 본문언어 영어
- 저작권 서강대학교의 논문은 저작권에 의해 보호받습니다
초록/요약
The work in this thesis concerns small footprint Language Model (LM) and its use in the implementation of embedded English Continuous Speech Recognition (CSR), which requires less than 1MB of memory. Considering that a CSR system consists of an acoustic model and an LM, and that the implementation of an acoustic model consumes at least 500K of memory, this research aims to successfully implement an LM for English SMS dictation using less than 500K. The main constraints in embedded environments are limitations in memory capacity and computational power. In addition, it is very difficult to collect sufficient text corpus for an LM of SMS dictation. It also costs a great deal since SMS involves many personal messages. This present two problems. First, the implementation of small footprint LM, which is a robust to sparse data set. Second, the generation of an independent vocabulary for domain corpus. To overcome these constraints, the implementation of the proposed language model is based on category-based LM. The main advantage of a category-based LM is known to be good performance with a sparse data set and better prediction for word tuples not presented in the training set. However, previous studies in category-based LM focused only on performance improvement, not on memory requirement improvement. In this thesis, implementation methods for category-based small footprint LM are described. For language models, a word is considered as the basic observation unit. Therefore, it is necessary to select a set of words depending on the type of application, before building the acoustic and language models of a speech recognizer. This set of words is called the vocabulary of a speech recognizer. If coverage is defined as the probability of the word existing in the vocabulary, as the number of words in the vocabulary increases, the coverage rate becomes higher. However, more memory capacity is required for the language model and the search process as the number of words increases. Thus, efficient vocabulary generation is crucial in the implementation for CSR systems in the embedded environment. If the corpus is given, the vocabulary optimized for the corpus is generated according to the frequency of each word used in the corpus. Due to difficulties in the collection of enough text corpus for SMS dictation, the above vocabulary generation becomes impractical. This thesis proposes a domain corpus independent vocabulary generation algorithm.
more초록/요약
본 논문은 임베디드 영어 연속음성인식을 위한 카테고리 기반 소용량 언어모델을 제안한다. 임베디드 연속음성인식 시스템의 경우, 매우 작은 메모리 사용량을 요구한다. 연속음성인식 시스템이 음향 모델과 언어 모델로 구성되며, 음향 모델의 구현을 500K 미만의 메모리 사용함을 고려하여, 1M 미만의 음성인식 시스템 구현을 위해, 500K 미만의 언어모델을 SMS dictation domain에 구현하는 것을 본 연구에서는 목표로 한다. 임베디드 환경에서 주요 제약 사항은 메모리 용량과 계산 능력의 한계에 있다. 특히, SMS 도메인의 경우에는, SMS는 개인 프라이버시와 관련되어 있기 때문에 충분한 양의 SMS 말뭉치를 수집하는 것이 어렵다. 이에 따른 두 가지 문제점이 발생한다. 첫째, 소용량 언어 모델의 구현시 충분하지 않은 데이터 자료에 대해서 신뢰할만한 성능을 보여줘야 한다. 둘째, 충분하지 않은 데이터 자료로부터 도메인 말뭉치에 독립적인 단어 사전을 생성해야한다. 이런 제약 사항을 해결하기 위해서, 제안한 언어 모델은 카테고리 기반 언어모델을 이용한다. 카테고리 기반 언어모델의 주요 이점은 충분하지 않은 데이터 자료에 대해서 만족할 만한 성능을 보여준다는 것이다. 그리고 학습 말뭉치에 출현하지 않았던 단어 튜플에 대해서도 좀 더 신뢰 할 수 있는 단어 확률 예측을 보여준다는 것이다. 그러나 기존의 카테고리 기반 언어모델의 연구는 성능 향상에 초점이 맞추어져 있었으며, 소용량 언어모델 구현에 관해서는 연구가 이루어지지 않았다. 본 논문의 첫 번째 연구주제로 카테고리 기반의 소용량 언어모델 구현에 관한 구현 방법을 제시한다. Coverage를 단어 사전에 존재하는 단어가 말뭉치에서 나올 확률이라고 본다면, 일반적으로 단어 사전의 단어가 증가함에 따라 coverage 또한 높아진다. 그러나 언어 모델을 위한 많은 메모리 용량이 요구되며, 탐색해야하는 단어 수 또한 증가한다. 따라서 임베디드 환경에서의 연속음성인식을 위해서 효율적인 단어 사전 생성이 필요하다. 말뭉치가 주어진다면, 말뭉치에 최적화된 단어 사전이 빈도수에 기반하여 생성될 수 있다. SMS dictation을 위한 충분한 양의 SMS 말뭉치를 수집하기 어렵기 때문에, 위에서 언급한 단어 사전 생성 방법은 실용적이지 않다. 본 논문의 두 번째 연구주제로 도메인 말뭉치에 독립적인 단어 사전 생성 알고리즘을 제시한다.
more