검색 상세

한국어 종단간 음성인식 모델의 Grammar Weighted Finite-State Transducer Fusion

The Use of Grammar Weighted Finite-State Transducer Fusion in Korean End-to-end Automatic Speech Recognition Models

초록 (요약문)

This paper proposes the use of Grammar Transducer Fusion in order to improve performance of Korean End-to-end (E2E) Automatic Speech Recognition (ASR) model. Automatic Speech Recognition is a task in which the framework outputs the most probable sequence of words given input speech. In development of deep learning models and rise in accuracy due to emergence of Transformer-based models, end-to-end (E2E) models which directly train input window of spectrogram to output token, have been applied to ASR. While this enabled ASR without transducers which encode language information, it has caused inference errors. This is due to architecture of Connectionist Temporal Classification(CTC) based E2E ASR model, which presume conditional independence between output labels. Therefore, Korean E2E ASR models are unable to train language information from training data. This error is more prominent in words which occur less than more commonly used words. This is due to nature of Deep Learning Neural Network(DNN), which has difficulty in training when there is less data for given word than other words. The target word could also include subwords which do not exist in CTC output layer. Therefore, in this work, fusion method using weighted finite-state transducer (WFST) containing grammar information was employed to reduce the following errors inference results : space error, grammar error, meaning error, spelling error. Before E2E ASR models, ASR system consisted of the following components : Lexicon Transducer, Grammar Transducer, and Acoustic Model. They are individually trained models which are hierarchically fused to form a single Search Graph. Each model converts the given input into necessary form of outputs, eventually into a series of words, or sentences. Grammar Transducer is the component which accepts sequence of words from Lexicon Transducer and output the most probable word in next decoding step. We compared outcomes of original ASR models and inference results using Grammar Transducer. Off-the-shelf Citrinet and Conformer from NVIDIA each scored Character Error Rate (CER) 4.95 % and 5.39 %. Using Grammar Transducer, CER was reduced to 0.66 % and 0.78 % each. As a result, it appears use of WFST, which maps all possible output of input speech data using grammar information and lexicon information from Grammar Transducer and Lexicon Transducer, is effective in reduction of inference errors. Therefore, it is possible to employ Grammar Transducer for effective performance improvement and domain adaption in pretrained Korean E2E models.

more

초록 (요약문)

본 논문에서는 한국어 종단 간 음성 인식 모델의 성능을 높이기 위하여 WFST 그래프의 Grammar Transducer Fusion을 제안한다. 자동 음성 인식, Automatic Speech Recognition(ASR)은 입력 음성에 대해 가장 생성 확률이 높은 문장을 출력하는 과정이다. 최근, 언어 정보를 제공하는 transducer 없이 전사 정보와 해당하는 음성 데이터만으로 단일모델을 학습하여 ASR에 적용하는 종단 간 음성 인식 모델이 가능하게 되었다. 그러나 이러한 ASR 모델을 한국어에 동일하게 적용하였을 때 띄어쓰기 오류, 문법 오류, 의미 오류, 철자 오류가 발생한다. 그 이유는 CTC 기반의 종단 간 ASR 모델은 출력을 구성하는 토큰의 출력 확률 간의 조건부 독립을 가정하기 때문이다. 따라서 한국어 E2E 모델에서는 학습 과정에서 언어 정의학습이 불가능하기 때문에 언어 정보의 부재로 인해 위와 같은 오류 유형이 발생하는 것이다. 이 문제는 학습 자료에 부족한 어절에서 더욱 두드러진다. 본래 딥러닝 모델은 낮은 발생 확률을 반영하여 출력이 어려우며, 더욱이 낮은 발생 확률로 인해 E2E 음성 인식 모델의 CTC output layer가 단어 중 존재하는 토큰을 포함하지 않을 경우에도 위에 언급한 오류가 발생하게 된다. 본 연구에서는 문법 정보를 포함하는 weighted finite-state transducer(WFST)와의 fusion을 사용하여 이러한 유형의 오류를 개선할 것을 제안한다. End-to-end (E2E) 모델 등장 이전, 기존의 ASR은 다음의 구성 요소를 통해 목표를 달성하였다 : Acoustic Model, Lexicon Transducer, Grammar Transducer. 이러한 구성 요소들은 한 구성요소의 출력이 다음 구성 요소의 입력으로 들어가는 계층적인 구조로 결합되어 Search Graph에서 입력 음성을 받아 Acoustic Model, 혹은 음향 모델에 음소 시퀀스로 변환하고, 이를 Lexicon Transducer에 입력하여 단어로 변환한다. 이렇게 변환된 단어는 Grammar Transducer에 입력되어 다음 순서에 적절한 단어가 출력되어 일련의 단어, 즉 문장으로 변환하는 과정을 통해 ASR의 목표를 달성하였다. 본 논문에서는 WFST를 사용하여 원래 ASR 모델의 결과 (Citrinet에서 CER 4.95 %, Conformer에서 CER 5.39 %)와 언어 모델을 결합한 인식 결과(Citrinet에서 CER 0.66 %, Conformer에서 CER 0.78 %)에서 음성 인식 모델의 성능을 비교하였다. 그 결과, external knowledge를 사용할 뿐만 아니라 가능한 어절의 경로를 모두 매핑하기 때문에 문법과 문맥 정보가 필요한 문장에서 오류 개선 효과를 보여 성능 개선에 효과적인 것으로 드러났다. 이를 통해 E2E 모델의 추가적인 학습 없이 문장 코퍼스 만을 사용하여 성능 개선을 할 수 있음을 확인할 수 있다. 따라서 기존에 존재하는 사전학습 한국어 음성 인식 모델에 Grammar Transducer를 적용하여 효율적인 성능 개선과 domain adaptation이 가능할 것으로 기대된다.

more