패밀리 특허를 이용한 불균형 특허 문헌 분류 개선
Improving Imbalanced Patent Classification Using Family Patents
- 주제어 (키워드) 특허 분류 , 클래스 불균형 , 한국산업분류 , 패밀리 특허 , 전이학습 , 데이터 증강 , Patent Classification , Class Imbalance , Korea Standard Industry Code , KSIC , Family Patent , Transfer Learning , Data Augmentation
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000076429
- UCI I804:11029-000000076429
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
4차 산업혁명 시대에 들어, 지식재산권, 특히 특허의 중요성이 더욱 커지고 있다. 특허 출원 건수의 급증에 따라, 특허 분류의 정확성과 효율성이 연구개발의 중복 방지, 연구 방향성 제시, 제품 개발 시간 단축 등에서 중요한 역할을 담당하게 되었다. 그러나 특허 데이터 분석에도 다양한 특허 분류에 대한 데이터의 불균형은 심각한 문제이다. 본 연구에서는 교착어의 특성을 가진 한국어의 특성을 고려한 특허 문서의 특성에 대한 분류 전략을 제시한다. 특허 문서는 다양한 기술 분야의 기술 용어, 특허 법률 용어, 그리고 특허 명세서의 구조적 특성 등을 가지고 있기 때문에, 이러한 특성을 고려하여 전이 학습 기반 분류 모델을 미세 조정한다. 또한, 본 연구에서는 한국표준산업분류(KSIC, Korea Standard Industry Code)에 중점을 두고, 특허 분류 문제에서의 클래스 불균형 문제를 완화하는 새로운 방법을 제시한다. 제안하는 방법은 확장된 패밀리 특허를 활용하여 전이 학습 기반의 특허 분류 모델의 학습 데이터를 증강시키는 것이다. 원 출원에 부여된 한국산업분류 코드를 원출원에서 확장된 패밀리 문헌에 동일한 한국산업분류 코드를 부여하고 확장된 패밀리 특허를 학습 데이터에 포함시킨다. 패밀리 특허의 다양한 표현을 위해 다양한 언어로 출원된 특허문헌에 대한 번역문 사용을 통해 원문의 유사성을 활용하며, 확장된 패밀리 특허는 원 출원과 동일 또는 유사한 기술분야 이므로 데이터의 다양성을 크게 높인다. 다양한 실험을 통해 제안한 방법이 특허 분류의 성능을 향상시키는 것을 확인하였다. 특히, 소수의 클래스에 대한 분류 성능이 개선되었으며, 전체적인 분류 성능 역시 향상되었다. 결과는 패밀리 특허를 활용한 데이터 증강과 한국어의 특성을 고려한 전이 학습의 효과를 확인하는 것으로, 특허 분류에서의 클래스 불균형 문제 해결에 대한 새로운 방안을 제시한다. 이 연구를 통해, 특허 데이터 분류의 효율성과 정확성을 높이는 데 기여할 수 있을 것으로 기대한다.
more초록 (요약문)
In the era of the Fourth Industrial Revolution, the importance of intellectual property rights, particularly patents, is growing. With the surge in patent applications, the accuracy and efficiency of patent classification play a significant role in preventing duplication of research and development, providing direction for research, and shortening product development time. However, data imbalance in various patent classifications poses a serious problem for patent data analysis. This study proposes a classification strategy for patent documents, considering the characteristics of Korean, an agglutinative language. Patent documents possess various technical terms from diverse technology fields, patent law terms, and structural features of patent specifications. Taking these into account, we fine-tune a transfer learning-based classification model. Also, this research focuses on the Korea Standard Industry Code (KSIC), proposing a new method to alleviate the class imbalance problem in patent classification. The proposed method augments the training data of the transfer learning-based patent classification model by utilizing extended family patents. The same Korea Standard Industry Code assigned to the original application is assigned to the extended family documents from the original application, and these extended family patents are included in the training data. The diversity of patent family expressions is enhanced through translated versions of patents filed in different languages, utilizing the similarity to the original text. Since the extended family patents belong to the same or similar technology fields as the original application, this greatly increases data diversity. Various experiments confirm that the proposed method improves patent classification performance. Specifically, the classification performance for minor classes improved, as well as overall classification performance. The results confirm the effectiveness of data augmentation using patent families and transfer learning considering the characteristics of Korean, offering a new solution to the class imbalance problem in patent classification. Through this research, we expect to contribute to enhancing the efficiency and accuracy of patent data classification.
more