청구항을 활용한 CNN 기반 특허문서 IPC 분류 성능 개선
New model to improve patent classification using claim based on convolutional neural networks
- 주제(키워드) 특허 , 국제특허분류 , IPC 분류 , 문서 분류 , CNN , word2vec
- 발행기관 서강대학교 정보통신대학원
- 지도교수 박석
- 발행년도 2019
- 학위수여년월 2019. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 소프트웨어공학
- 실제URI http://www.dcollection.net/handler/sogang/000000064033
- UCI I804:11029-000000064033
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
특허제도는 “발명을 보호 장려하고 그 일을 도모함으로써 기술의 발전을 촉진하여 산업발전에 이바지함을 목적”으로 하는 법적 제도이다. 이러한 제도를 이용하여 지적재산권을 보호받기 위해서 매년 18만 여건에 이르는 특허 출원되고 있다. 출원된 모든 특허들은 주제 분야에 대한 검색을 용이 하게하기 위해서 심사 전 단계에서 국제특허분류(IPC)에 따른 분류 과정을 거친다. 이 분류 과정은 분류 전문가가 특허 명세서 내용을 파악 후 관련 기술을 고려하여 분류코드를 부여하는 정성적인 분류 방법으로 진행이 된다. 정성적 분류 방법은 비용과 시간에 있어서 부담이 될 수 있으며, 분류 정정신청과정의 피드백을 예방적으로 접근하는 방식에 있어서 한계점이 존재한다. 이러한 특허의 분류 과정을 자동화할 수 있는 연구는 기계학습 방법을 이용하여 계속 연구되어졌다. 하지만 기존 연구에서 진행한 기계학습 방법은 이진 분류 방식 SVM을 기반으로 이용하여 이루어졌다. 이 경우 학습데이터가 증가의 경우 차원의 저주가 발생할 수 있으므로 제한적인 특징 적용을 통해서 연구를 진행하였다. 특허 문서가 가지는 여러 가지 정보 중 발명의 개념을 정의하고, 특허의 범위를 공시하는 청구항 정보를 활용하며, 최근 문서 분류에서 효과를 보이는 합성곱 신경망(Convolutional Neural Networks)을 이용한 문서 분류 모델을 이용하여 제한된 학습데이터로 학습 시 누락되어질 수 있는 정보를 보존하여 분류의 성능을 개선을 하려고 한다. 실험을 통해서 청구항 이전의 연구에서 적용되었던 방법과 제안 모델의 방법을 비교하여 본 결과, 청구항을 단독으로 사용할 때 보다는 다른 특허의 정보와 조합하여 사용하는 경우에 더 좋은 성능을 보이고 있었다.
more