검색 상세

외부 지식을 활용한 상식 추론 기반의 질의 응답 시스템

Common Sense Based Reasoning using External Knowledge for Question Answering

초록/요약

최근 기계가 인간 수준의 추론 능력을 가지는 것에 대해 상당히 많은 연구가 진행되고 있다. 상식은 세상에 대해 기본적인 지식이며 인간에게는 당연한 지식이기 때문에 추론할 때 중요한 지식이다. 하지만 상식은 명확하게 정리된 데이터가 부족하기 때문에 기계에게 상식을 학습하기에 어려움이 존재한다. CommonsenseQA는 기계에게 상식을 학습하고 평가하기 위해 제안된 객관식 질의응답 형태의 데이터 셋이다. 자연어처리 태스크에서 좋은 성능을 보이는 사전 학습된 언어 모델인 RoBERTa는 CommonsenseQA에 대해서 좋은 성능을 보인다. 하지만 인간의 성능에 비하면 부족한 성능이다. 이를 해결하기 위해 본 논문에서는 먼저 질문에 답하기 위해 필요한 정보를 외부지식에서 탐색하여 ‘Evidence’를 구성한 후 ‘Evidence’를 지문으로 사용하여 정답을 예측하는 모델을 제안한다. 제안하는 모델은 3가지 단계로, 외부지식에서 필요한 정보를 탐색하는 External knowledge finder, (table, AtLocation, rug)와 같은 트리플 형태의 정보를 문장형태로 변환하는 Triple to sentence converter, 구성된 ‘Evidence’를 기반으로 정답을 예측하는 Reasoning module로 이루어져 있다. 우리가 제안한 모델의 성능은 CommonsenseQA의 검증 데이터에 대해서 80.84%, 평가 데이터에 대해서 76.14% 성능을 보였다. 이 결과는 베이스라인 모델인 RoBERTa 보다 평가 데이터에 대해서 4.04% 향상된 성능을 보인다.

more

초록/요약

These days many researchers are interested in machines having human-level reasoning skills. In reasoning, common sense is essential since it is basic knowledge about the world, common to all humans. However, common sense is challenging to train machines because of a lack of well-written data. CommonsenseQA is a dataset in the form of multiple-choice question answering proposed to train and evaluate common sense. RoBERTa is pre-trained language models that perform well in the natural language process task can be a powerful baseline method for CommonsenseQA. However, there still exists a large gap between human performance. In this paper, we propose the model that explores the relevant knowledge to answer the question from an external knowledge base, and then predicts the right answer based on the explored knowledge is called ‘Evidence’. The proposed model consists of three steps: External knowledge finder to search knowledge from ConceptNet, Triple to sentence converter to convert triple such as (table, AtLocation, rug) into a sentence, and Reasoning module to predict the right answer based on ‘Evidence’. We achieved 80.84% performance on the CommonsenseQA dev set and 76.14% on the test set. Our model achieves 4.04% improvement compared with the baseline on the test set.

more