검색 상세

로컬 클러스터링 계수를 활용한 그래프 오토 인코더 기반의 클러스터링을 위한 문서 임베딩 기법

Document Embedding Method for Clustering via Graph Autoencoder Using Local Clustering Coefficients

초록 (요약문)

Document clustering is a method of categorizing large-scale unstructured data into similar groups without the need for labels and it can be applied to various analytical tasks such as information retrieval, recommendation systems and etc. However, existing document clustering approaches face certain limitations. Despite being an unsupervised learning task where the number of clusters is unknown, many existing methods still train embeddings to fit specific cluster labels. Additionally, these methods fail to fully capture the potential associations that can be obtained from both direct and indirect relationships between documents. To address these issues, We propose a graph autoencoder-based document embedding method that extends the traditional clustering coefficient to better capture document-to-document relationships. First, a sparse graph based on 1-hop relationships is constructed using document similarity, and this graph is further expanded to generate 2-hop relationships. All generated 2-hop relationships are processed using an adaptive threshold for each document, which is determined based on the similarity distribution of each document. This ensures that only meaningful document relationships are included in the model's learning process. The proposed method was applied to six document datasets and compared against deep learning-based document embedding models using three different evaluation metrics. The experimental results demonstrate that the proposed method outperforms other models, showing superior performance on medium- to large-scale document datasets. Moreover, it was found to be robust in maintaining high performance even when the number of cluster labels changes.

more

초록 (요약문)

문서 클러스터링은 레이블 (Label) 없이 대규모 비정형 데이터를 유사한 그룹으로 분류하는 방법으로, 데이터 검색, 추천 시스템 등 각종 분석 업무에 활용될 수 있다. 그러나, 기존 문서 클러스터링 접근 방식은 실제 분류될 클러스터 개수를 알 수 없는 비지도 학습임에도 불구하고 특정 클러스터 레이블에 맞춰 임베딩을 학습한다는 제한점과 문서 간의 직・간접적인 관계로부터 획득 할 수 있는 잠재적 연관성을 충분히 반영하지 못한다는 한계가 있다. 이를 해결하기 위해, 본 논문에서는 기존 로컬 클러스터링 계수를 확장하여 문서 간 관계를 고려, 문서 클러스터링을 위한 그래프 오토 인코더 기반의 문서 임베딩 기법을 제안하였다. 먼저, 문서 간 유사도를 바탕으로 1-hop 기반의 희소 그래프를 구성하며, 이를 확장하여 2-hop 관계를 생성한다. 생성한 모든 2-hop 관계는 각 문서별 유사도 분포에 따라 적응적 임계값 (Adaptive Threshold)을 설정하여 유의미한 문서 관계만 모델이 학습하도록 하였다. 본 논문에서 제안한 기법을 6개의 문서 데이터셋에 적용하고 딥러닝 기반의 문서 임베딩 모델들과 3가지 지표를 통해 검증하였다. 그 결과, 제안하는 기법이 다른 모델 대비 우수한 성능을 보임과 더불어, 중・대형 문서 데이터셋에서 보다 효과적이고, 클러스터 레이블을 달리하여도 강건한 성능을 산출할 수 있음을 확인했다.

more

목차

제1장 서론 1
제2장 관련 연구 4
2.1 전통적인 문서 클러스터링 4
2.2 딥러닝 기반의 문서 클러스터링 5
제3장 로컬 클러스터링 계수를 활용한 그래프 오토인코더 기반의 문서 임베딩 기법 8
3.1 1-hop 기반의 그래프 생성 10
3.1.1 문서 간 유사도 측정 10
3.1.2 그래프 생성 11
3.2 로컬 클러스터링 계수를 활용한 2-hop 관계 생성 14
3.2.1 로컬 클러스터링 계수의 필요성 14
3.2.2 2-hop 후보 관계 생성 16
3.2.3 적응적 임계값 적용을 통한 2-hop 필터링 17
3.3 모델 구조 23
3.3.1 그래프 오토 인코더 학습 23
3.3.2 재구성 손실 함수 25
3.3.3 클러스터링 손실 함수 26
3.3.4 최종 손실 함수 27
제4장 실험 및 성능 평가 29
4.1 실험 데이터셋 29
4.2 실험 환경 31
4.3 평가 지표 32
4.4 성능 평가 33
4.4.1 실제 레이블 기준 성능 비교 33
4.4.2 클러스터 개수 기준 성능 비교 36
4.4.3 N-hop별 성능 비교 41
제5장 결론 45
참고문헌 46

more