검색 상세

혼합 타입 데이터의 군집화를 위한 그래프 오토인코더 기반의 데이터 임베딩 기법

Graph Autoencoder-Based Data Embedding Technique for Clustering Mixed-Type Data

초록

데이터를 구성하는 객체의 속성은 크게 수치형 속성과 범주형 속성 그리고 혼합형 속성으로 나뉜다 혼합형 속성의 경우 객체가 수치형 속성과 범주형 속성을 동시에 가진 속성을 이야기한다 거리 계산법이 다른 두 속성을 가진 혼합형 데이터에 대하여는 범주형 속성을 수치형 속성으로 변화시켜 유사도를 계산하거나 각 유형의 속성별 유사도를 이용해 통합거리를 계산하여 군집화시키는 방식을 사용하고 있다 다만 두 방법 모두 원본 유형 속성의 변화하는 과정에서 생겨나는 원본 특징의 손실과 통합거리 생성을 위한 하이퍼 파라미터 수의 증가라는 단점을 포함하고 있다 해당하는 문제에 착안하여 본 논문에서는 혼합 유형의 데이터셋의 객체들의 연결을 통해 만든 그래프와 해당 그래프를 를 통과시켜 나온 노드들의 임베딩을 GAE(Graph Auto Encoder) 객체의 좌표로 이용하여 유클리디언 기반 유사도 및 거리를 측정하여 군집화시키는 방식을 사용하기 위해 혼합형 데이터셋의 객체 사이의 유사도를 정의하는 방법을 제시한다.

more

초록

The properties of objects that make up data are largely divided into numerical properties, categorical properties, and mixed properties. In the case of mixed properties, an object is referred to as an attribute that has both numerical and categorical properties. For mixed data with two properties with different distance calculation methods, the similarity is calculated by changing categorical properties into numerical properties to calculate the similarity, or the integrated distance is calculated and clustered using the similarity for each type of attribute. However, both methods contain the disadvantages of loss of original features arising in the process of changing the original type properties and increase in the number of hyperparameters for generating the integrated distance. Focusing on the problem, this paper proposes a method of defining similarity between objects in a mixed dataset in order to use a method of measuring and clustering Euclidean-based similarity and distance using the graph created through the connection of objects of the mixed type dataset and the embedding of nodes that passed through the Graph Auto Encoder (GAE) as coordinates of the object.

more

목차

1. 서론 1
2. 관련연구 4
2.1. 전통 방식의 혼합형 데이터의 군집화 기법 4
2.2. 딥러닝 기반의 그래프 인코딩 기법 7
3. GAE 기반의 혼합 데이터 임베딩 방식 9
3.1. 혼합형 데이터를 이용한 그래프 생성 11
3.1.1. 그래프 생성을 위한 혼합형 객체의 서로 다른 속성의 거리 계산 11
3.1.2. 서로 다른 두가지 속성의 거리를 이용한 혼합형 데이터셋의 그래프의 생성 15
3.2. GAE 모델 구조 22
4. 실험 및 성능 평가 24
4.1. 실험 데이터 24
4.2. 실험 환경 25
4.3. 모델 성능 평가 28
5. 결론 30

more