T5 모델 기반의 한국어 특허 요약
Summarization of Korean Patents Based on T5 model
- 주제어 (키워드) 한국어 특허 요약 모델 , 한국어 특허 T5 모델 , 한국어 특허 자동 요약 , korean patents summarization model , korean patents T5 model , korean patents auto summarization
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2022
- 학위수여년월 2022. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- 실제 URI http://www.dcollection.net/handler/sogang/000000066597
- UCI I804:11029-000000066597
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
In the era of the fourth industrial revolution, development of technology and R&D are actively conducted, and the importance of intellectual property rights is increasing, and the number of patent applications at the center of intellectual property rights is increasing significantly. Analysis of patent data prevents duplication of R&D, derives R&D directions, and shortens product development time, greatly increasing the likelihood of business success. Among these patent data analysis methods, summarize work the contents of patent documents is more necessary in the patent field, where the number of applications is increasing. However, in the manual summarize operation, the contents of the summary may be different depending on the analyst, and the operation time is long, which is inefficient. Recently, various proposals have been made for document summarization, and transfer learning-based pre-training models in the field of natural language processing have shown high performance and have been published a lot, and research on document summarization models is being conducted more actively. However, the transfer learning-based pre-training model also needs to be learned according to the characteristics and language of the corresponding domain in order to exhibit excellent performance. Korean is a language with the characteristics of agglutinative language, and a model of the Korean language domain learned using Korean data is required. And patent document is document about the invention of a technology, which is composed of technical terms in various technical fields, has patent legal terms, and has structural characteristics of patent specifications, so a model of the patent domain learned using patent data is required. In this study, for automatic summary generation of Korean patent documents, the T5 summarization model of the Korean patents domain, which was learned and fine-tuned by applying to the characteristics of the Korean language domain and patent domain, was proposed and experimented. And in order to improve the performance of the Korean patents summarization model, through data analysis, preprocessing of stop-word and preprocessing of stop-sentence in the patent domain were proposed and experiments were conducted. In addition, In order to improve the performance of the model, data augmentation was proposed using the back-translation method and the experiment was conducted. Through the experiment, a Korean patents summarization model based on the T5 model was derived, and the proposed preprocessing model of the Korean patent domain showed high performance improvement. In addition, performance improvement was also observed in the data augmentation by back-translation, and the model including both preprocessing of the patent domain and data augmentation by back-translation showed the highest performance improvement. In this study, a Korean patents summarization model based on the T5 model was derived, and it was confirmed that performance improvement was achieved using preprocessing suitable for the proposed Korean patents domain and data augmentation.
more초록 (요약문)
4차 산업혁명 시대를 맞아 기술의 발전과 연구개발이 활발히 진행되는 근래에 지식재산권에 대한 중요성은 점점 커지고 있으며, 지식재산권 중심에 있는 특허의 출원 수는 크게 증가하고 있다. 특허 데이터에 대한 분석은 연구개발의 중복을 방지하고, 연구개발 방향을 도출하며, 제품 개발 시간을 단축하여 사업의 성공 가능성을 크게 증가시킨다. 특허 데이터를 분석하기 위한 방법도 효율적으로 발전하고 있으며, 이러한 특허 데이터 분석 방법 가운데 특허 문서의 내용을 파악하여 정리하는 요약 작업은 출원 수가 증가하고 있는 특허 도메인에는 더욱 필요하다. 그러나 수동 요약 작업 시에 분석자에 따라 요약의 내용이 상이할 수 있으며 소요 시간도 길어 비효율적이다. 최근 문서의 요약(summarization) 작업에 대하여 다양한 제안이 되어 왔고, 자연어처리 분야에서 전이학습 기반의 사전 훈련 모델들이 높은 성능을 나타내며 많이 발표되어 요약 모델에 대한 연구는 더욱 활발히 진행되고 있다. 하지만 전이학습 기반의 사전 훈련 모델도 우수한 성능을 발휘하기 위해서는 해당 도메인의 특성과 언어에 맞는 학습이 필요하다. 한국어는 교착어의 특성을 갖는 언어로 한국어 데이터로 학습된 한국어 언어 도메인의 모델이 필요하고, 특허 문서는 기술의 발명에 대한 문서로서 다양한 기술 분야의 기술 용어로 구성되어 있고 특허 법률 용어가 존재하며 특허 명세서의 구조적 특성을 갖는 도메인으로 특허 데이터로 학습된 특허 도메인의 모델이 필요하다. 본 연구에서는 한국어 특허 문서의 자동 요약 생성을 위하여 한국어의 언어 도메인과 특허 분야 도메인의 특성에 적용하여 학습하고 미세 조정한 한국어 특허 도메인의 T5 요약 모델을 제안하고 실험을 진행하였다. 한국어 특허 요약 모델의 성능 향상을 위하여 데이터 분석을 통하여 특허 도메인의 불용어 전처리(preprocess)와 불용문장 전처리를 제안하고 실험을 진행하였다. 또한 모델의 성능 향상을 위하여 역번역 방법으로 데이터 증강을 제안하고 실험하였다. 실험을 통하여 T5 모델 기반의 한국어 특허 요약 모델을 도출하였고 제안한 특허도메인의 전처리 모델은 높은 성능 향상을 보였다. 또한, 역번역에 의한 데이터 증강 기법에서도 성능 향상이 나타나 특허도메인의 전처리와 역번역에 의한 데이터 증강이 모두 포함된 모델이 가장 높은 성능 향상 결과를 보여주었다. 본 연구에서 T5모델 기반의 한국어 특허 요약 모델을 도출하였고 제안한 한국어 특허 도메인에 맞는 전처리와 데이터 증강을 사용하여 성능 향상을 나타내는 것을 확인하였다.
more