검색 상세

최신 신문 코퍼스 기반 자동 패러프레이즈 문장 생성 기법

Automatically Extracting Paraphrase Sentences Based on Latest News-Corpus

초록/요약

패러프레이즈란 어떤 표현 혹은 문장을 같은 의미를 가지는 다른 단어들을 사용하여 표현한 것들을 의미한다. 이는 정보 검색, 다중 문서 요약, 질의응답 등 여러 자연어 처리 분야에서 중요한 역할을 한다. 특히, 양질의 패러프레이즈 코퍼스를 얻는 데는 높은 비용이 소요된다. 만약 패러프레이즈 문장 쌍을 대량의 원시 데이터로부터 자동으로 추출할 수 있다면 이러한 기법이 자연어 처리의 여러 분야에서 유용한 자원으로 사용될 것이다. 본 논문에서는 신문기사로부터 양질의 패러프레이즈 쌍을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법은 특정 날짜의 특정 사건에 대해 작성한 기사 사이에는 같은 사건을 다른 단어로 표현한 문장이 많을 것이라는 가정에서부터 비롯된다. 이 가정에 기반을 두어 원시 데이터의 문장 중에서 패러프레이즈가 될 수 있는 문장들을 선별하여 몇 가지 제약사항을 고안하였다. 우선 수집된 문장 중에서 특정 개체명이 비슷한 문장들을 1차적으로 선별한다. 이렇게 선별된 문장에서부터 유사도를 계산하여 최종 문장 쌍들을 결정한다. 실험을 통해 본 논문에서 제안하는 추출 방법의 정확도가 68∼85% 성능을 보였다. 이는 과거 비슷한 연구에서 보인 시스템의 성능 67%보다 향상된 수치를 보여주었고, 양질의 데이터를 자동으로 추출할 수 있다는 것을 확인하였다.

more

초록/요약

Paraphrase is an alternative surface form in the same language expressing the same semantic content as the original form. It plays important roles in various Natural Language Processing, such as Multi-Document Summarization, Question-Answering, Machine Translation, and so on. In particular, it is too expensive to obtain high-quality corpus of paraphrase. If a pair of paraphrase sentences, however, can be automatically extracted from the raw data, then these techniques will be used as a useful resource in many areas of Natural Language Processing. In this paper, I propose a method for extracting these high-quality data form newspaper articles. News articles on the same day may deal about the events that happened same day. Based on this characteristic to collect news paper articles by date, and extract sentences which will possibly be as a paraphrase. Each sentence from the collection of articles will be tagged by Named Entity Tagger, and classify sentences that shares a high proportion of their Named Entities. Finally, extract final pair of sentences candidates from primary classified sentences, by calculating semantic similarity of them. The combination of specific Named Entity should be excluded from the final set. According to the experimental results shows high performance of the accuracy. This showed improved performance levels than in the previous study, so the proposed extraction method was confirmed that it can automatically extract high-quality data from news articles.

more