공간변환을 이용한 효과적인 문서 클러스터링 방법
An Effective Clustering Method by using Space Transformation
- 주제(키워드) 문서 클러스터링 , 텍스트 마이닝 , Word Mover's Distance ,
- 발행기관 서강대학교 일반대학원
- 지도교수 정성원
- 발행년도 2019
- 학위수여년월 2019. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000064545
- UCI I804:11029-000000064545
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
스마트폰과 다양한 소셜 미디어의 사용량 증가로 인해 다량의 온라인 문서가 생산되고 있다. 온라인 문서를 텍스트 마이닝 및 정보 검색 기법으로 분석하기 위해 문서 클러스터링 방법이 사용되고 있는데, 기존의 방법인 Bag-of-Words나 TF-IDF를 사용한 문서 표현으로는 문서의 의미를 충분히 표현하지 못할 뿐만 아니라, 고차원에서의 희소 표현이 되어 클러스터링에 성능이 저하된다. 이러한 한계를 극복하기 위해 신경망 모델로 단어의 의미를 학습하는 워드 임베딩 기법을 활용하여 문서 분류를 할 수 있는 새로운 거리 함수인 Word Mover’s Distance(WMD)가 제안되었다. WMD는 워드 임베딩으로 문서를 표현할 때 문서의 의미를 파악하지 못하는 한계를 극복하였으나, 거리 계산 비용이 너무 크다는 단점이 있다. 이런 많은 양의 거리 계산 비용을 줄이기 위해서 레퍼런스 문서 기반 공간 변환 기법을 활용하여 변환된 벡터 공간에서 효율적인 클러스터링을 수행하는 방법을 제시한다. 본 논문에서는 레퍼런스 문서 기반 공간 변환 기법을 정의하고, 문서 클러스터링을 위한 레퍼런스 문서를 뽑는 기준을 제시한다. 실제 데이터셋에서 실험을 통해 제안하는 기법이 효과적으로 문서 클러스터링을 하는 것을 보여주었으며, 기존 기법보다 훨씬 적은 계산량으로 더 좋은 클러스터의 품질을 보여주었다.
more