혼합 타입 데이터의 군집화를 위한 그래프 오토인코더 기반의 데이터 임베딩 기법
Graph Autoencoder-Based Data Embedding Technique for Clustering Mixed-Type Data
- 주제어 (키워드) 군집화 , 신경망 , 혼합형 데이터; clustering , neural network , mixed-type data
- 발행기관 서강대학교 일반대학원
- 지도교수 정성원
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076649
- UCI I804:11029-000000076649
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
데이터를 구성하는 객체의 속성은 크게 수치형 속성과 범주형 속성 그리고 혼합형 속성으로 나뉜다 혼합형 속성의 경우 객체가 수치형 속성과 범주형 속성을 동시에 가진 속성을 이야기한다 거리 계산법이 다른 두 속성을 가진 혼합형 데이터에 대하여는 범주형 속성을 수치형 속성으로 변화시켜 유사도를 계산하거나 각 유형의 속성별 유사도를 이용해 통합거리를 계산하여 군집화시키는 방식을 사용하고 있다 다만 두 방법 모두 원본 유형 속성의 변화하는 과정에서 생겨나는 원본 특징의 손실과 통합거리 생성을 위한 하이퍼 파라미터 수의 증가라는 단점을 포함하고 있다 해당하는 문제에 착안하여 본 논문에서는 혼합 유형의 데이터셋의 객체들의 연결을 통해 만든 그래프와 해당 그래프를 를 통과시켜 나온 노드들의 임베딩을 GAE(Graph Auto Encoder) 객체의 좌표로 이용하여 유클리디언 기반 유사도 및 거리를 측정하여 군집화시키는 방식을 사용하기 위해 혼합형 데이터셋의 객체 사이의 유사도를 정의하는 방법을 제시한다.
more초록
The properties of objects that make up data are largely divided into numerical properties, categorical properties, and mixed properties. In the case of mixed properties, an object is referred to as an attribute that has both numerical and categorical properties. For mixed data with two properties with different distance calculation methods, the similarity is calculated by changing categorical properties into numerical properties to calculate the similarity, or the integrated distance is calculated and clustered using the similarity for each type of attribute. However, both methods contain the disadvantages of loss of original features arising in the process of changing the original type properties and increase in the number of hyperparameters for generating the integrated distance. Focusing on the problem, this paper proposes a method of defining similarity between objects in a mixed dataset in order to use a method of measuring and clustering Euclidean-based similarity and distance using the graph created through the connection of objects of the mixed type dataset and the embedding of nodes that passed through the Graph Auto Encoder (GAE) as coordinates of the object.
more목차
1. 서론 1
2. 관련연구 4
2.1. 전통 방식의 혼합형 데이터의 군집화 기법 4
2.2. 딥러닝 기반의 그래프 인코딩 기법 7
3. GAE 기반의 혼합 데이터 임베딩 방식 9
3.1. 혼합형 데이터를 이용한 그래프 생성 11
3.1.1. 그래프 생성을 위한 혼합형 객체의 서로 다른 속성의 거리 계산 11
3.1.2. 서로 다른 두가지 속성의 거리를 이용한 혼합형 데이터셋의 그래프의 생성 15
3.2. GAE 모델 구조 22
4. 실험 및 성능 평가 24
4.1. 실험 데이터 24
4.2. 실험 환경 25
4.3. 모델 성능 평가 28
5. 결론 30