Nucleus Sampling-Based Synthetic Parallel Data Generation Method for Neural Machine Translation
신경망 기계 번역을 위한 뉴클러스 샘플링 기반의 가상 병렬 데이터 생성 방법
- 주제어 (키워드) Machine Translation , Back Translation , Synthetic Parallel Data , Nucleus Sampling , 기계 번역 , 역 번역 , 신경망 기계 번역 , 가상 병렬 데이터 , 뉴클러스 샘플링
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000070206
- UCI I804:11029-000000070206
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Synthetic data generated by back-translation is crucial in training neural machine translation (NMT) systems. While synthetic data has been shown to be effective, there is still a big gap between synthetic data and real data that is annotated by human beings. This thesis focuses on two aspects of synthetic data: translation adequacy and diversity. We measure the translation adequacy according to the semantic similarities of sentence pairs in synthetic data calculated by a multilingual sentenceembedding model. Moreover, we analyze the translation diversity considering the distribution of the number of low-frequency words and the out-of-vocabulary rate in synthetic data. Our analysis demonstrates that the lack of diversity and richness problem inherited from beam search in the decoding phase is the primary issue of synthetic data. Therefore, we propose using nucleus sampling-based decoding strategy as an alternative to beam-search decoding in back-translation which significantly improves the diversity of synthetic data. The experimental results demonstrate that nucleus sampling-based decoding lowers the out-of-vocabulary rate of synthetic data to 4.0% compared to 13.27% for beam search. In out-domain translation tasks, synthetic data generated by the sampling method outperforms the generated via beam search by 0.51 BLEU (Bilingual Evaluation Understudy) score. Furthermore, we observe an additional gain of 0.18 BLEU by adding synthetic data filtering. Synthetic data generated by the nucleus sampling method outperforms beam search by 0.96 − 1.23 BLEU in medium-resourced in-domain translation tasks. By applying the proposed methods to the recently advanced pretraining model with back-translation, we achieve a slight performance boost. The study indicates that nucleus samplingbased decoding is essential for generating a rich and diverse synthetic parallel data which improves the translation performance of an NMT system.
more초록 (요약문)
역-번역의 산물인 가상 병렬 데이터는 기계 번역기 학습에서 아주 중요하다. 하지만 가상 병렬 데이터와 인간이 태깅한 병렬 데이터 사이에는 여전히 큰 차이가 있다. 본 논문은 이러한 차이를 줄이기 위하여 번역 적절성과 번역 다양성에 초점을 맞추어 가상 병렬 데이터를 분석하였다. 가상 병렬 데이터의 번역 적절성은 다중 문장-임베딩 모델을 이용하여 병렬 문장 사이의 의미적 유사도에 근거하여 측정하였다. 또한 가상 병렬 데이터의 번역 다양성은 저-빈도 단어수와 미등록 단어의 비율에 근거하여 분석하였다. 본 논문의 분석에 의하면 역-번역 디코딩 단계의 beam search로 인하여 발생되는 다양성 부족이 가상 병렬 데이터의 가장 주요한 문제이다. 따라서 본 논문은 가상 병렬 데이터 생성 시 뉴클러스 샘플링 방법으로 beam-search 디코딩을 대체하여 다양성 부족 문제를 해결하였다. 실험 결과에 의하면 뉴클러스 샘플링에 기반한 디코딩이 beam-search 디코딩에 비하여 가상 병렬 데이터의 미등록 단어 비율을 13.27%에서 4.0%까지 낮추었다. 도메인 외 (out-domain) 번역에서 뉴클러스 샘플링에 기반한 방법이 beam search에 비해 0.51 BLEU (Bilingual Evaluation Understudy) 향상된 성능을 보였다. 또한 가상 병렬 데이터 필터링을 적용한 결과 0.18 BLEU의 추가 성능 향상을 관찰하였다. 제안 방법을 중간-자원 (medium-resourced) 도메인 내 (in-domain) 번역에 적용한 결과 0.96 - 1.23 BLEU 성능 향샹을 보였다. 제안 방법을 역-번역을 탑재한 최신 사전 학습된 (pre-training) 언어 모델 기반 기계 번역기에 적용한 결과 약간의 성능 향상을 보였다. 이러한 결과는 뉴클러스 샘플링에 기반한 디코딩 방법이 아주 풍부하고 다양한 가상 병렬 데이터를 생성할 수 있고 궁극적으로 기계 번역기의 성능을 향상할 수 있음을 시사한다.
more

