특허 문서 유사검색을 위한 전문가 도메인 지식을 사용하는 딥러닝 기법
Deep Learning Methods using Expert Domain Knowledge for Similar Search of Patent Documents
- 주제(키워드) 딥러닝 , 뉴럴네트워크 , 유사문서검색 , 문서분류 , 자연어처리 , deep-learning , neural network , similar document search , document classification , natural language processing
- 발행기관 서강대학교 일반대학원
- 지도교수 박석
- 발행년도 2021
- 학위수여년월 2021. 8
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000066237
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
최근 딥러닝 기법들이 빠른 속도로 발전함에 따라 특허문서 분류 분야에도 딥러닝 방법을 적용하여 우수한 성과를 보여주는 연구들이 진행되고 있다. 특허문서 분류는 특허 등록이전에 특허 청구자가 관련된 유사 특허를 검색하는 범위를 줄여주는 사전 처리 작업이다. 자신의 특허 청구항들과 유사한 특허를 검색하기위해서는 각 청구항들이 특허분류상 어떤 분류에 해당하는지 예측하는 과정이 필요하기 때문이다. 자동 특허문서 분류 작업을 위하여 많은 고전적인 기법과 딥러닝 기법들이 적용되었는데, 이들은 특허문서의 분류정보를 도출하기위해서 분류 작업을 수행하는데 초점을 맞추고 있다. 이러한 접근 방법은 각각 기법들의 기본적인 분류 성능을 발휘하는 데에는 긍정적인 효과를 보여주고 있지만, 해당 도메인 지식을 반영하지 못하고 있어서 유사 문서 검색을 위한 서비스 품질을 제공하는데는 미흡하다. 본 연구에서는 특허 문서의 특성을 고려하기 위해서 도메인 지식을 반영하는 세가지 모델을 제시한다. 먼저 문서 전처리 단계에서 Mexn은 특허 문서 정보의 형식적 특성인 대용량 문서 입력 문제를 해결하기위한 계층적 요약 모델로서, 병렬적 컴퓨팅방식으로 대규모 연산에 대응한다. 다음으로 PAInet은 선행 기술 관계에 대한 도메인 지식을 사용하여 특허 자동분류와 함께 분류된 문서들의 유사도 정도를 조절하는 작업을 수행하는 모델로서, 유사 문서 검색 서비스 품질 향상을 위해 적용된다. 마지막으로 Lexai는 법률적 기술요건에 대한 특성을 고려한 유사 문서간의 유사도를 설명하기 위한 모델로서, 전문가 영역에서의 설명가능한 인공지능의 가능성을 제시한다. 우리는 제안된 방법들이 USPD ,KPRIS 그리고 대한민국 대법원 판결 데이터 세트에 대한 의미론적 거리 평가와 함께 특허 문서 분류 작업에서 최신 모델을 능가한다는 것을 보여준다. 특히 PAInet은 분류 성능을 유지하면서 유사한 문서 후보를 제시하여 SOTA 방법에 비해 15% 향상된 우수한 유사 특허 검색 성능을 보여준다.
more초록/요약
With the recently rapid development of deep learning methods, studies show excellent performance by applying deep learning methods to patent document classification tasks. Patent document classification is a preprocessing task that reduces the scope of patent document candidates searching for similar patents before patent registration. Many classical and deep learning methods have been applied for automatic patent document classification tasks, focusing on performing classification tasks to derive classification information from patent documents. While each of these approaches demonstrates a positive effect on the underlying classification performance, it fails to consider their domain knowledge, which is essential to provide quality of service for similar document retrieval. In this work, we present three models that reflect domain knowledge to consider the characteristics of patent documents. First, in the document preprocessing phase, MEXN is a hierarchical summary model for solving large-scale document input, a formal characteristic of patent document information, which corresponds to large-scale operations with parallel computing methods. Next, PAInet is a model that uses domain knowledge of prior art relationships to perform tasks that learn the degree of similarity of documents with patent classification tasks, which is applied to improve the quality of similar document search services. Finally, LEXAI presents the applicability of explainable artificial intelligence in the legal expert domain as a model for explaining similarities between similar documents considering the characteristics of a legal expert domain. We show that the proposed methods outperform the state-of-the-art models on patent document classification tasks, along with semantic distance evaluations on USPD, KPRIS, and the Supreme Court of Korea ruling datasets. In particular, PAInet presents similar document candidates while satisfying classification performance, demonstrating superior patent similar search performance with 15% improvement over SOTA methods.
more