검색 상세

한국어 연속음성인식을 위한 sequence-to-sequence 학습 기반 phoneme-to-text conversion

Phoneme-to-text Conversion Based on Sequence-to-sequence Learning for Korean Continuous Speech Recognition System

초록/요약

본 논문은 한국어 표준 발음법 중, 한국어 표준어를 도메인으로 하는 한국어 음성인식기를 대상으로 한 sequence-to-sequence 기반 phoneme-to-text conversion을 제안한다. 기존 한국어 음성인식기에서 발음열을 통해 단어열을 생성하는 방법은, 단어 단위로 단어 사전을 미리 구성한 뒤, 해당 단어에 대한 단어열 정보를 담아 그것을 기반으로 단어열로 전환하는 방식이다. 이와 같은 방식은, 단어 사이에서 나타나는 연음법칙, 경음화 등의 현상에 대해 대응할 수 없다는 문제가 있으며, 표준어 이외에 사투리나 외국어에 대해서도 적용할 수 없다는 문제가 있다. 이 문제를 해결하기 위해 sequence-to-sequence 기반 phoneme-to-text를 제안하였다. 단어 단위가 아닌 문장 단위로 발음열을 입력받아 문장을 출력하는 방식으로, 단어 간의 관계를 고려하여 문장을 생성할 수 있고, 각 음성인식기 도메인에 맞추어 학습할 수 있다는 장점이 존재하나, 모델 학습을 위해서는 문장 단위로 표준 발음법이 적용된 발음열과 그에 대응되는 문장이 있어야 한다. 이를 위해 본 연구에서는 표준 발음법을 적용한 Grapheme-to-phoneme(G2P)를 이용하여 한국어 corpus에 대해 문장 단위 발음열을 생성하고, 이를 학습 자료에 사용하였다. G2P를 구현하기 위해 국립국어원에서 지정한 표준발음법을 참조하여 규칙을 정의하였다. 동일 문자열에 대해 규칙 간 우선 순위를 정의하여 구현하였다. 표준 발음법을 적용하려면 품사 정보가 필요하기 때문에 상용화된 형태소 분석기를 이용하여 품사를 생성했고, 이를 발음법에 적용 될 수 있도록 구현하였으며, 발음법에 예외 규칙을 적용하기 위해 예외 사전을 구현하여 발음열 생성 시 적용되도록 구현하였다. G2P로 생성된 학습 자료를 이용하여 phoneme-to-text 모델을 구현하였다. phoneme-to-text는 문장 기반 번역 알고리즘으로 널리 알려져 있는 NMT(Neural machine translation)을 사용하였으며, 단어 간 연관성을 높여서 학습할 수 있도록 Recurrent neural network(RNN)과 long-short term memory(LSTM)을 사용하여 모델을 구현하였다. 제안한 phoneme-to-text의 성능을 측정하기 위해 Word error rate(WER)을 사용하였다. WER은 정답으로 제시된 결과와 비교했을 때 단어의 오류율을 나타낸 것으로, 수치가 낮을수록 높은 인식률을 나타낸다. 본 연구에서 제안한 phoneme-to-text는 한국어 구어체 2,200문장을 대상으로 22.28%의 성능을 보였다.

more

초록/요약

This thesis proposed a phoneme-to-text method that is based on the sequence-to-sequence mechanism applied to Korean speech recognizer for Korean standard language. A previous method forms a word dictionary to define word and phoneme sequence in a Korean speech recognizer and converts the phoneme sequences into sentences in reference to that dictionary. These methods have limitations in that they are unable to respond to interactions such as glottalization and palatalization between words. To solve this problem, this thesis proposes a phoneme-to-text method based on the sequence-to-sequence mechanism. As this proposed method generates sentences based on phoneme sequence inputs in sentence units and not in word units, It is possible to create sentences in consideration of inter-word relations. However, this requires a large amount of data, sentences and phoneme sequences. This thesis proposes a model generating phoneme sequences in sentence units in reference to a Korean corpus by means of the grapheme-to-phoneme method. Generated pronunciation strings were used in learning materials. To implement the grapheme-to-phoneme method, a set of rules were defined in reference to standard pronunciation rules by the National Institute of the Korean Language Rules. A part of speech was generated in accordance with pronunciation rules by means of a morpheme analyzer. In order to apply exceptions to pronunciation rules, an exception dictionary was created. A phoneme-to-text model was designed based on the learning materials generated by the G2P method. The phoneme-to-text conversion was made by neural machine translation algorithm designed by using the recurrent neural network and long-short term memory. The performance of the proposed phoneme-to-text method was measured in terms of the word error rate (WER). The WER indicated the error rate of words in comparison with correct answers. The WER of the proposed phoneme-to-text method was measured at 22.33% in 2,200 Korean sentences.

more