Title-Aware BERTSUM for Korean Newspaper Extractive Summarization
제목을 인지한 BERTSUM 기반 한국어 뉴스기사 추출형 문서 요약
- 주제어 (키워드) newspaper summarization , extractive summarization , BERT , BERTSUM
- 발행기관 서강대학교 정보통신대학원
- 지도교수 서정연
- 발행년도 2022
- 학위수여년월 2022. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- 실제 URI http://www.dcollection.net/handler/sogang/000000066392
- UCI I804:11029-000000066392
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Extractive summarization aims at making a summarized text by combining several introductory sentences. This paper suggests a Korean newspaper's title- aware BERTSUM fine-tuning for extractive summarization. The newspaper contains the first several sentences preceding, which rarely distinguish between averaged and sequence-independent scores when evaluating summarization performances. This paper provides the compared evaluation separating samples by different positions. The experiments show that title-aware BERTSUM performs better than Rouge and F1 scores on general extractive summarization and sequence-independent evaluation. The title-aware method is efficient in classifying sentences for extractive summarization.
more초록 (요약문)
추출형 문서 요약은 문서 전체 중 핵심 문장으로 여겨지는 일부 문장을 뽑아 요약문을 만드는 기법이다. 본 연구는 추출형 문서 요약 기법을 제안한 BERTSUM 을 이용하여 뉴스 기사의 제목을 추가하여 요약 모델을 학습하는 방법을 제시한다. 뉴스 기사 특성상 다수의 뉴스의 핵심 문장은 앞부분에서 나오는 경우가 많아 정답의 위치에 따라 개별적으로 평가를 하여 전체 평균을 낸 결과보다 좀 더 자세한 비교평가를 진행하였다. 실험 결과에 따르면, 제목을 추가했을 경우에 기존 BERTSUM 보다 더 나은 성능을 보였으며 핵심 문장 위치에 따른 비교 평가에서도 Rouge score 와 F1 score 모두 우수한 성능을 보였다. 이를 통해 제목을 추가하여 문장의 중요도를 재구성한 요약 모델이 성능 향상에 효과적이라 할 수 있다.
more