반사실적 증강 데이터와 대조 학습을 이용한 자연어 추론 학습 방법 연구
Relation Contrastive Learning with Counterfactually Augmented Data for Natural Language Inference
- 주제어 (키워드) 자연어 처리 , 자연어 추론 , 딥러닝 , 데이터 증강 기법 , 대조 학습 , Natural language processing , Natural language inference , deep learning , data augmentation , contrastive learning
- 발행기관 서강대학교 일반대학원
- 지도교수 소정민
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000069980
- UCI I804:11029-000000069980
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
사전 훈련된 언어 모델 (Pre-trained language model)이 등장하면서 다양한 자연어 처리 태스크 (Natural language processing task)에서 좋은 성능을 보여주고 있다. 하지만 언어 모델은 종종 비원인적 (non-causal) 특징과 패턴에 의존하여 잘못된 결정을 한다. 자연어 추론 (Natural language inference)을 위해 훈련된 모델은 반사실적으로 수정된 데이터 (counterfactually-augmented data)에 대해 잘못된 근거로 판단하는데, 이는 모델이 자연어 추론의 세 클래스인 함의 (entailment), 중립 (neutral), 모순 (contradiction)의 의미를 강력하게 학습하지 못하고 있음을 나타낸다. 본 논문에서는 다른 자연어 처리 태스크와 달리 두 문장을 입력으로 하는 자연어 추론을 위한 데이터 증강 기법 (data augmentation)을 제안하여 각 클래스에 속하는 반사실적 문장 쌍을 생성한다. 또한, 유사한 문맥을 나타내지만 서로 다른 클래스를 가지는 문장 쌍 간의 차이를 모델이 학습할 수 있도록 자연어 추론을 위한 대조 학습 (contrastive learning) 방법을 제안한다. 반사실적으로 수정된 데이터셋 및 다른 대표적인 자연어 추론 데이터셋을 사용하여 제안 방법을 평가하고, 이를 통해 얻은 실험 결과는 해당 방법이 자연어 추론 모델의 성능과 견고성을 향상시킬 수 있음을 보여준다.
more초록 (요약문)
As pre-trained language models show good performance on various natural language processing (NLP) tasks, it also improved the performance of natural language inference (NLI). However, the language models often rely on non-causal features or patterns to determine the outcome, which is the poor decision. The classifiers which are trained for NLI task predict counterfactually-augmented data based on spurious patterns, indicating that the model is not strongly learning the meaning of three NLI classes-- entailment, neutral, and contradiction. In this paper, we propose data augmentation methods for NLI, which inputs two sentences unlike other NLP tasks, and generate a counterfactual pair of sentences belonging to each class. Furthermore, we propose "relation" contrastive learning for NLI so that the model can learn the differences between pairs of sentences that represent similar contexts but have different classes. We evaluate the proposed method using the counterfacutally-augmented dataset and other representative NLI datasets, and empirical results show that the method can improve the performance and robustness of NLI model.
more