검색 상세

디노이징 기반의 준지도학습을 이용한 한국어 문법 오류 교정

Korean Grammar Error Correction Using Denoising Based Semi-supervised Learning

초록/요약

The grammar error correction model receives sentences with grammar errors as input and outputs correct sentences. The model should be able to model various kinds of Korean grammar errors including simple typos and contextual errors like honorifics. For this task, various sequence-to-sequence models such as transformers are used. However, this model has a critical disadvantage that it requires a large amount of parallel data. In this paper, we consider applying self-training and backtranslation techniques to the grammar correction task in order to reduce the dependence on parallel data. Although Both methods have been proven to be effective in classification problems and translation problems, respectively, it has not been confirmed that they are helpful in correcting Korean grammar errors. In this paper, we propose adding a noise function that simulates grammatical errors in the process of creating synthetic data for correcting Korean grammar errors using the two methods. Based on the noise-added data, the model learns the denoising method, which leads to improved performance in the grammar error correction task. Our model achieved a BLEU point of 90.17 on a dataset released for 2020 Naver AI RUSH competition.

more

초록/요약

문법 오류 교정 모델은 문법이 올바르지 않은 문장을 입력으로 받아 올바른 문장을 출력한다. 모델은 구두점, 철자를 바로잡는 교정부터 문맥을 고려하여 경어체를 바로잡는 교정까지 다양한 종류의 한국어 문법 오류를 모델링할 수 있어야한다. 이를 위해 트랜스포머등 다양한 시퀀스 투 시퀀스 모델들이 활용된다. 그러나 이러한 모델은 많은 양의 병렬 데이터를 필요로한다는 치명적인 단점이 있다. 본 논문에서는 병렬데이터에 대한 의존도를 낮추기 위해 self-training과 역번역 기법을 문법 교정 태스크에 적용하는 것을 고려한다. 두 방법은 각각 분류 문제와 번역 문제에서 효과적임이 입증된 바 있으나, 한국어 문법 오류 교정 태스크에도 도움이 되는지는 확인된 바 없다. 본 논문에서는 두 방법을 이용해 한국어 문법 오류 교정을 위한 synthetic 데이터를 만드는 과정에서 문법 오류를 모사하는 노이즈 함수를 추가하는 것을 제안한다. 노이즈를 추가한 데이터를 바탕으로 모델은 디노이징 방법을 학습하게 되고, 이는 문법 오류 교정 태스크에서 성능 향상으로 이어졌다. 제안 방법대로 학습한 트랜스포머 모델은 Naver AI RUSH 경진대회에서 공개한 데이터에 대해서 BLEU 90.17이라는 높은 성능을 기록했다.

more