검색 상세

클러스터링을 위한 그래프 컨볼루션 신경망 기반의 문서 임베딩

Document Embedding for Clustering with Graph Convolutional Neural Network

초록

기존의 TF-IDF 기반의 문서 클러스터링 기법은 차원의 저주로 인해 성능이 저하되는 문제가 있다. 이를 극복하기 위해 spectral clustering을 통해 차원을 줄이는 방법과 딥뉴럴넷 기반의 문서 임베딩 기법들이 제안되었는데 제안된 기법들은 저차원의 임베딩을 생성하지만, 개별 문서에 대한 임베딩만이 이루어지는 문제가 있고 특히 spectral clustering은 계산량이 많다는 문제가 있다. 따라서 본 연구에서는 문서들의 TF-IDF 간의 유사도를 계산하여 각 문서별로 유사도가 높은 상위 k 개의 문서들에 대해 유사도를 가중치로 반영하여 연결시킨 그래프를 생성하여 그래프 컨볼루션 신경망을 통해 임베딩하는 새로운 방법을 제안한다. 우리는 임베딩 결과를 다양한 데이터 세트를 사용하여 기존의 다양한 텍스트 임베딩 기법의 클러스터링 성능과 비교하여 제안한 기법이 문서 클러스터링에 효과적임을 보여주었다.

more

초록

TF-IDF-based document clustering techniques have a problem in that performance is degraded due to curse of dimensionality. To solve this problem, spectral clustering and deep neural net-based document embedding techniques have been proposed. The proposed techniques generate low-dimensional embeddings, but there is a problem that only embeddings are made for individual documents, and in particular, spectral clustering has a high computational volume. In this paper, we propose a novel method for computing similarity between TF-IDF vectors of documents to generate a connected graph reflecting similarity as weights for the top k documents with high similarity for each document and embedding them through a graph convolutional neural network. Our experimental evaluations on document datasets show significant improvement over state-of-the-art methods.

more