검색 상세

소용량 말뭉치에 대한 MDI 방법 제약 조건의 효과적 추정 및 이를 이용한 언어 모델 Adaptation

초록/요약

본 논문의 목표는 30초에서 120초 분량의 소용량 말뭉치를 이용하여 언어 모델 성능을 개선하고자 MDI 방법 제약 조건의 효과적 추정 및 이를 이용한 언어 모델 Adaptation의 성능 향상이다. 일반적으로 사용되는 언어 모델은 대량의 학습 자료로부터 단어열의 사전 확률값을 추출하여 단어 히스토리에서 현재 단어가 생성될 조건부 확률을 구하여 추정한다. 주제, 장르, 도메인 혹은 스타일에 맞는 대량의 학습 자료를 수집하기 어려운 상황에서는, 다른 도메인의 학습 자료를 이용할 수 있으나 평가 자료와 일치하지 않는 문제가 있기 때문에, 언어 모델 adaptation을 적용해야 한다. 일반적인 MDI 방법을 이용한 언어 모델 adaptation 방법은, 먼저 평가 자료와 다른 도메인에서 수집한 대량의 학습 자료로 background 언어 모델을 생성 한다. 그리고 background 언어 모델과 평가 자료와 동일한 도메인 자료인 소량의 adaptation 자료를 기반으로 언어 모델 adaptation을 수행한다. 소용량 말뭉치로부터 추출 할 수 있는 단어의 개수는 약 110개에서 450개로 본 실험에서 사용하고 있는 13,000 개의 인식 가능 단어 집합에 비하면 매우 작은 양이다. 따라서 MDI 방법 제약 조건은 unigram으로 결정 하였고, unigram 추정 방법으로 빈도수 기반과 지식 베이스 WordNet의 단어간 의미적 유사도(semantic similarity)를 이용하였다. 소용량 말뭉치에 대한 MDI 방법 제약 조건의 효과적 추정 및 이를 이용한 언어 모델 adaptation 수행 결과는 다음과 같다. 먼저 100% 인식률의 인식기로 소량의 말뭉치 전사자료를 수집한 경우 언어 모델 adaptation 수행 시 perplexity 관점에서 최대 16%, Word Error Rate 관점에서 최대 1.3% 성능 향상을 보였다. 두 번째로 50% 인식률의 인식기로 소량의 말뭉치 전사자료를 수집한 경우 언어 모델 adaptation 수행 시 perplexity 관점에서 최대 15%의 성능 향상을 보였다.

more

초록/요약

The work in this thesis focused on effective constraint estimation of the MDI method for a small size corpus, which consists of sentences from 30 seconds to 120 seconds in length, and its use in language model adaptation. Generally, a language model is extracted by obtaining the conditional probability of a current word from a given history in a large-scale background data set. When it is difficult to collect data that fits in a specific topic, genre, domain, or style, train data from different domains can be used, although it could cause a decline in a language model's performance since it does not correspond to test data. Therefore, language model adaptation is necessary. The first step for making the general language model adaptation framework of the MDI method is, to generate a background language model from a large-scale data set different from the test domain. Then, language model adaptation is carried out based on the small-sized adaptation data and the background language model. It can be used to extract from 110 to 450 words from the small-sized adaptation data, which is a very small size compared to the total vocabulary size, 13,000 words. Therefore, unigram is used as a constraint in the MDI method. Unigram estimation methods are based on both frequency in training corpus and semantic similarity between words using WordNet. The result of this work with the language model adaptation is as follows. Firstly, when the transcription of a small size corpus was extracted by speech recognition with 100% recognition rate, the improvement in language model adaptation was up to 16% in perplexity and up to 1.3% in Word Error Rate (WER). Secondly, when the transcription of small size corpus was extracted by speech recognition with about 50% recognition rate, the improvement of language model adaptation was up to 15% in perplexity.

more