R3F 정규화 기법을 사용한 BART 기반 뉴스 요약
News summarization based on BART using R3F Regularization
- 주제어 (키워드) 요약 , 한국어 , 정규화
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000069840
- UCI I804:11029-000000069840
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
현대를 살아가는 사람들은 다양한 매체와 문서를 통해 수 없이 많은 정보들을 습득해나가고 있다. 그 중에서도 뉴스기사, 보고서 등 텍스트로 구성된 문서는 방대한 양과 다양한 형태의 데이터로 구성되어 있어 핵심 문장만 제공하는 텍스트 요약 정보를 선호한다. 관련해 문장의 연결성이 자연스러운 추상적 요약에 대한 성능 개선을 수행하면서 기존 학습 데이터가 무너지지 않도록 Fine-tuning을 적용하였다. 본 연구에서 제안하는 내용은 다음과 같다. 사전 학습 된 BART 네트워크에 텍스트로 구성된 뉴스기사 데이터를 이용하여 추상적 생성요약을 수행하였다. 또한, 학습 중 표현이 붕괴되는 현상으로 인한 성능 저하를 완화시키고자 정규화 과정을 적용하였다. 정규화 방법으로는 R-DROP과 R3F 기법을 사용하였으며 성능 평가를 위해 ROUGE-N, ROUGE-L SCORE를 사용하였다. 실험에 따르면 정규화 기법은 성능개선에 효과를 보였으며 ROUGE-L을 기준으로 pre-trained, R-Drop, R3F 기법이 각각 0.325, 0.328, 0.332의 결과를 보여 R3F 정규화 기법이 가장 높은 성능으로 개선됨을 검증하였다.
more초록 (요약문)
People living in modern times are acquiring countless amounts of information through various media and documents. Among them, documents composed of text, such as news articles and reports, are composed of vast amounts of data and various types of data, so text summary information that provides only key sentences is preferred. In this regard, fine-tuning was applied so that the existing training data would not collapse while performing performance improvement on abstract summaries with natural connectivity of sentences. The contents proposed in this study are as follows. Abstract generative summaries were performed using news article data composed of text in the pretrained BART network. In addition, a normalization process was applied to mitigate the performance degradation caused by the ‘representative collapse phenomenon’ during learning. R-DROP and R3F techniques were used as regularization methods, and ROUGE-N and ROUGE-L SCORE were used for performance evaluation. According to the experiment, the regularization technique showed an effect on performance improvement, and the pre-trained, R-Drop, and R3F techniques showed results of 0.325, 0.328, and 0.332, respectively, based on ROUGE-L. Also, it was found that the R3F regularization technique improved to the highest performance.
more