Subword 유닛과 역 번역을 이용한 한국어-영어 신경망 기계 번역
Korean-English Neural Machine Translation Using Subword Unit and Back Translation
초록/요약
인공 신경망 기계번역(Neural Machine Translation)은 인공 신경망을 활용하여 입력 문장을 벡터로 표현하고 그 벡터를 이용하여 번역 문장을 End-to-End 방식으로 출력하는 기법으로, 최근 다른 통계적 기반 번역 방법에 비해 높은 번역 성능을 나타내고 있는 중이다. 초기의 인공 신경망 기계 번역은 문장을 구성하는 기본 단위를 ‘단어’로 상정하고 이를 기반으로 사전을 구성하여 번역에 이용 하였다. 하지만 번역에 사용되는 사전의 크기를 무한정 늘릴 수는 없으므로, 사전에 등록되지 않은 단어가 등장했을 때(Out of Vocabulary 문제가 등장했을 때) 번역이 어려운 문제가 발생한다. 이를 해결하기 위해, 문장을 구성하는 단위를 단어보다 더 세부적인 것(Subword Unit)으로 상정하는 방법이 제안되었고, 그 구체적인 방법으로는 Byte Pair Encoding이 있다. 인공 신경망 기계번역은 대규모의 병렬 코퍼스가 존재할때에는 높은 성능을 나타내지만, 이런 대규모의 병렬 코퍼스가 존재하지 않는 언어쌍에 대해서는 그다지 높은 성능을 나타내지 못한다. 이를 해결하기 위해, Back Translation 기법을 통해 학습 코퍼스의 수를 증가시키는 방법이 제안된 바 있다. 본 논문에서는 한국어-영어 인공 신경망 기계 번역에 있어 BPE 기법과 Back Translation 기법을 적용하여 다양한 조건 하에 실험을 진행하였고, 두 기법을 적용 시킴으로써, 한국어-영어 인공 신경망 기계 번역의 성능을 향상시킬 수 있음을 확인하였다.
more