검색 상세

한국어 종단간 음성인식에서의 성능 향상을 위한 Lexicon Transducer를 적용한 Convolution Augmented Transformer

Convolution Augmented Transformer with Lexicon Transducer for Performance Improvement in Korean End-to-end Speech Recognition

초록/요약

Speech recognition is a process of converting a sequence of speech into a sequence of words. Since the length of frames sequence and the length of words sequence are different, the answer for input must be sorted. This problem is called alignment problem. Traditional speech recognition has solved alignment problem using HMM. But various assumptions are required when defining HMM. Recently, due to the development of deep learning, end-to-end speech recognition, which directly maps graphemes to speech signals, shows good performance. Among the end-to-end models, Conformer shows the best performance. However end-to-end speech recognition only focuses on the probability of which grapheme will appear at the time. The decoding process uses a greedy search or beam search. This decoding method is easily affected by the final probability output by the model. For example, if the model has a high probability of an incorrect grapheme for an input frame, even for one frame, an incorrect grapheme appears in the middle. Therefore, it is necessary to limit the impossible paths by making a graph. In addition, the end-to-end speech recognition cannot use external pronunciation information and language model due to structural problem. In this thesis, Conformer with lexicon transducer is proposed to solve above problem. We compare the phoneme-based model and grapheme-based model because the input of L transducer is a phoneme. We compare the beam search result of grapheme-based Conformer and phoneme-based Conformer using WFST decoding for 270 hours of Korean dataset. test set is consist of 100 sentences including words that do not appear in training data. The grapheme-based Conformer with beam-search shows 3.80% of CER. The phoneme-based Conformer with WFST decoding shows 3.40% of CER, which improved performance by about 10%.

more

초록/요약

음성인식은 음성의 시퀀스를 단어의 시퀀스로 변경하는 과정이다. 이때 음성 시퀀스의 길이와 단어 시퀀스의 길이는 서로 다르기 때문에 입력에 대한 정답을 정렬해야 한다. 전통적인 음성인식은 이를 HMM을 통해 해결하였지만 HMM을 정의할 때 필요한 여러가지 가정들이 필요하다. 최근 들어 딥러닝의 발달로 인해 HMM을 사용하지 않고 음성 신호와 단어의 자소를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 Conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소가 나타날지에 대한 확률을 잘 뽑는 것에만 초점을 두고 있을 뿐 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용한다. 이러한 디코딩 방법은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 예를 들어 모델이 입력 음성 프레임에 대해서 하나의 프레임이라도 잘못된 자소에 대한 확률이 높게 측정되었을 경우 잘못된 자소가 중간에 나오거나 정답으로 나와야 할 자소가 출력되지 않는 현상이 발생한다. 따라서 발생할 수 있는 시퀀스에 대한 그래프를 미리 만들어 놓아 가능하지 않은 경로를 제한할 필요가 있다. 또한 end-to-end 음성인식 방법은 전통적인 음성인식과 비교해 볼 때 그 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 특히 동일한 자소라도 앞뒤 문맥에 따라 다르게 발음되는 경우에 대해 학습자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 L(lexicon) transducer를 이용한 디코딩 방법을 제안하여 위 문제를 해결하고자 한다. 실험은 L transducer의 입력이 음소이기 때문에 음소단위 모델과 자소 단위 모델을 비교한다. 한국어 데이터셋 270시간에 대해 자소 기반 Conformer의 빔 탐색 결과와 음소 기반 Conformer에 L transducer를 적용한 결과를 비교한다. 학습자료에 등장하지 않는 단어가 포함된 테스트셋에 대해 자소 기반 Conformer는 3.8%의 음절 오류율을 보였으며 음소 기반 Conformer는 3.4%의 음절 오류율을 보여 약 10%의 성능 향상을 보였다.

more