검색 상세

범주와 수치 속성이 혼합된 데이터간의 통합 거리 측정 기법

An integrated distance measure between the mixed categorical and numeric data

초록/요약

데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 이러한 거리 측정 기법은 데이터의 특성에 따라 크게 수치 속성에 대한 거리 측정 기법과 범주 속성에 대한 거리 측정 기법으로 나뉘어서 논의되어져 왔다. 하지만 실제의 데이터 중에는, 이 두 가지 속성들이 혼합되어 있는 경우가 있으며 이 경우에는 두 가지 속성을 동시에 고려하는 혼합 거리 측정 기법이 필요하다. 본 논문은 이러한 두 가지 속성에 대한 각각의 특성들을 조합하여 두 가지 속성이 혼합된 데이터에 대한 효과적인 거리 측정 기법을 제안한다. 기존의 혼합 거리 측정 기법의 경우 범주 속성상에서의 동질성에 집중하여 이를 수치 속성과 단순히 결합하는데 그쳤으며, 범주 속성상의 동질성을 구하는 데 있어 거리 측정을 위한 사전 처리가 필요하게 되어 데이터의 특성에 따라 계산이 복잡해지고 계산 시간이 증가되는 단점이 있다. 본 논문에서 제시하는 거리 측정 기법은 수치 속성상에서는 데이터 분포에 따른 가중치를 부여하고 범주 속성상에서는 속성별 변위에 따른 가중치를 부여하여 계산 복잡도를 낮추면서도 데이터의 특성에 관계없이 수치와 범주 각 속성을 반영한 효율적인 거리 측정이 가능하다. 또한 수치 속성과 범주 속성상의 거리를 혼합하는데 있어 기존 방법들의 단점을 해소할 수 있는 새로운 혼합 기법을 제시한다. 실험 결과는 데이터의 차수나 속성별 변위, 데이터의 개체 수에 덜 의존적인 빠른 시간의 계산을 통해 효율적인 군집화를 수행할 수 있음을 보여준다.

more