검색 상세

Weakly Labeled Corpus를 이용한 한국어 실시간 자동 전사 시스템

Korean Real-Time Automatic Transcription System Using Weakly Labeled Corpus

초록/요약

음성인식기의 성능은 음향 모델, 언어 모델, 디코딩 네트워크의 성능으로 평가될 수 있으며, 비교적 학습자료를 모으기 용이한 언어 모델과는 다르게 음향 모델의 학습에 필요한 자료를 모으는 일은 매우 어렵다. 이에 본 논문은 쉽게 대용량 자료를 모을 수 있는 YouTube 동영상과 이에 해당하는 부정확한 시간 정보의 자동 생성자막으로 이루어진 weakly labeled data를 수집하고 소용량 학습자료로 학습된 음성인식기를 이용하여 weakly labeled corpus를 구축하는 방법을 제안한다. 또한 제안된 방법을 이용하여 생성한 weakly labeled corpus를 학습에 사용하여 한국어 자동 전사 시스템의 정확도를 향상시키는 방법을 제안한다. 일반적으로 사용자가 생성한 자막과 다르게 자동 생성된 자막에는 오류가 존재한다. 기존의 연구들은 사용자가 올린 자막 자료가 풍부한 영어를 대상으로 자동생성 자막과 사용자 생성 자막의 차이를 비교하고 이를 이용하여 신뢰성이 있는 자료를 선택하여 사용하는 준지도학습을 사용하였다. 제안하는 방식은 사용자가 생성한 자막이 희소한 한국어 영상들에 대하여 자동 생성된 자막만을 이용하여 부정확한 시간 정보를 교정하고 이를 정제하여 학습자료를 생성 한 뒤 학습에 사용하는 방법을 사용한다. 동영상 데이터에 대하여 직접 사람이 작성한 1.21시간 분량의 자막 자료를 사용하여 제안된 시스템의 성능을 분석하였으며, 구축된 weakly labeled corpus로 학습하였을 때 CER기준 8%의 우수한 성능을 보였으며, corpus 구축에 사용된 방송 자료 도메인이 아닌 IPA도메인에서도 CER 5.86%의 준수한 성능을 보이고 있다. 이로부터 weakly labeled corpus를 학습자료로 사용하여 한국어 자동 전사 시스템을 학습하였을 때 해당 방송 자료 도메인에서의 성능 향상은 물론 다른 도메인에서도 학습에 사용 가능한 수준의 성능을 보임을 확인 할 수 있다.

more

초록/요약

The performance of the automatic speech recognition system is evaluated by performances of acoustic model, language model, decoding network. Training data of the language model is easy enough to collect. On the other hand, collecting data for training acoustic models requires high cost and time. Although large volumes of data are available on YouTube, these data are considered to be weakly labeled because captions are automatically generated with incorrect time information. In this paper, the method is proposed to improve the performance of the Korean real-time auto transcription system by constructing a weakly labeled corpus collected from YouTube. Previous acoustic model learned with a small amount of data. Generally, there is an error between the human-generated caption and the automatically generated caption. Previous studies have used semi-supervised learning to compare the difference between automatically generated caption and human-generated caption and to select and use reliable data using English based subtitles. The proposed method corrects inaccurate time information by using the automatically generated subtitles for Korean videos without the subtitles generated by human, refining them and generating training data and use them for learning. The performance of the proposed system was evaluated by using 1.21 hours of caption data directly created by human on the video data. The performance of the proposed system was analyzed using the constructed weakly labeled corpus, which showed excellent performance of 8% based on CER. The CER 5.86% performance is also observed in the IPA domain which is not the news broadcasting domain. From this, it can be confirmed that when the Korean automatic transcription system is trained by using the weakly labeled corpus as the learning material, the performance of the news broadcasting domain is improved as well as the performance on other domains.

more