검색 상세

키워드 집합 데이터를 위한 효과적인 군집화 알고리즘

초록/요약

최근 정보화기술의 발전과 대중화 그리고 스마트폰을 비롯한 첨단 기기들의 발달 로 인하여 다양한 종류의 데이터가 지속적으로 누적되고 있다. 이로 인하여 군집화 기술에 대한 수요가 증가하고 있고 다양한 알고리즘이 개발되었다. 그러나 최근까지 연구되어진 군집화 알고리즘들은 최근 증가하고 있는 이미지, 동영상, 가상현실, 초 고화질 영상, 3D 등 다양한 종류의 데이터를 효과적으로 군집화 하지 못한다. 따라 서 이러한 데이터를 효과적으로 군집화하는 방법이 필요하다. 그러나 지금까지의 키워드 기반 데이터 군집화 알고리즘은 고정된 차원에 기반 을 두고 있고, 키워드 공간이 한정되어 있기 때문에 차원이 고정되어 있지 않고 키 워드 공간이 무한한 키워드 기반 데이터를 효과적으로 군집화 하지 못한다는 문제 를 지니고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 각각의 데이터의 차원의 크기가 다 르고, 각 차원이 가지는 의미가 무색해진 데이터인 키워드 집합 데이터를 새롭게 정 의하고 이 데이터를 위한 유사도 측정법을 새롭게 제안한다. 새롭게 정의한 유사도 측정법은 다양한 종류의 키워드를 고려하여 유사도를 측정한다. 그리고 키워드 집합 데이터로 이루어진 군집을 대표하는 대푯값을 새롭게 정의하고, 새롭게 정의한 데이 터와 유사도 측정법을 바탕으로 초기에 군집의 개수를 알지 못해도 군집화가 가능 한 키워드 집합 데이터 군집화 알고리즘인 CASK(Clustering Algorithm for Set of Keywords)를 제안한다. CASK는 각 군집의 대푯값을 기반으로 반복을 통해서 유사한 키워드 집합 데이터를 한 군집으로 모아준다.

more