Search details

효과적인 특허 문서 클러스터링 기법 : An effective method of clustering patent documents

  • Publisher 서강대학교 정보통신대학원
  • Adviser 서정연
  • Issued 2006
  • Awarded 200608
  • Thesis degree 석사
  • Major 정보통신대학원
  • Other identifier 000000103190
  • Language 한국어

Abstract

특허 문서 분석에 있어 문서 클러스터링은 유사 문서들을 함께 묶는 데 유용하다. 특허 문서 클러스터링에 대한 효과적인 방법 탐색이 본 논문의 목적이다. 먼저 어떤 하위 항목이 클러스터링 대상 텍스트로 가장 효과적인지를 일차적으로 연구하였다. 이를 위한 실험 문서 집합은 보편적 특허 문서 분류체계인 IPC 구조를 활용하여 세 가지 종류로 구성하였다. 그리고 실험 대상 특허 문서 내 하위 항목은 요약 초록, 특허 명세, 청구범위를 선정하였다. 각 실험 문서 집합 내 각 대상 하위 항목에 대하여 K-Means 클러스터링 알고리즘을 적용하였다. 실험 결과 비교를 통해 특허 명세의 경우가 가장 효과적이라는 결론을 내렸다. 다음으로 대표적인 할당식 클러스터링 알고리즘인 K-Means 알고리즘 및 그 변형인 Fuzzy C-Means 알고리즘을 적용하여 첫 번째 경우와 동일한 실험 문서 집합에 대해 실험하였다. 두 알고리즘은 비슷한 성능을 보였으나, 속도 면에서는 K-Means 알고리즘이 조금 더 유리했다. 그리고 양쪽 알고리즘 모두 거리 기준이 아닌 유사도 기준을 이용했을 때 가장 좋은 성능을 보임을 확인하였다.

more

Abstract

Document clustering is useful for grouping similar documents together in the patent document analysis. This thesis focuses on the exploration of an effective method of clustering patent documents. First we wanted to solve the problem about which subsection in the patent document is the most effective target text. For the first experiment, we prepared three test document sets applying the structure of IPC, which is used as the universal patent classification code. Then we selected Abstract, Description and Claim as target subsections in the patent document. With every target subsection in every test set, we applied k-means clustering algorithm. As a result, we concluded that Description was the most effective subsection. Next, we applied two clustering algorithms: k-means and fuzzy c-means to the former test document sets. Results of both cases showed similar performance, but k-means clustering algorithm was faster. Also, similarity-based application of these algorithms showed better results than distance-based ones.

more