검색 상세

메타데이터를 이용한 최적분류기 선택에 대한 고찰 : Consideration for Selecting Optimal Classification Algorithm Using Meta-data

초록/요약

기계학습 분야에서는 다양한 데이터 분류 방법들이 사용되고 있다. 그러한 방법들 중 다른 분류기에 비해 분류 문제에서 일반적으로 우수한 성능을 보이는 분류기가 존재할 수 있다. 하지만 기계학습의 근본 원리 중 하나인 양보의 원리(Principle of No Free Lunch)에 의해 어느 하나의 특정 학습 분류기가 다른 분류기에 비해 어떤 특정 문제를 해결함에 있어 우수하다면, 다른 문제에서는 우수하지 못할 수 있다. 따라서 어느 분류기가 더 적합한지는 응용문제의 속성 및 요구 조건에 따라서 달라질 사항이라는 결론을 내릴 수 있다. 본 논문에서는 데이터의 속성을 고려해서 특정 문제에 대한 최적의 분류기를 선정하기 위해 고찰을 시도한다. 이 시도는 데이터에 대한 데이터인 메타데이타(Meta-data)를 형성하는 것으로부터 시작한다. 44개의 데이터 셋들에 대해 8개의 분류기를 적용한 결과를 확인하여 각각의 데이터 별로 가장 높은 정확률을 보인 최적 분류기 번호와 44개의 데이터 셋들로부터 추출된 공통 속성들을 가지고 하나의 메타데이터를 형성한다. 형성된 메타데이터에 다시 8개의 동일한 분류기를 적용하여 가장 높은 정확률을 보이는 분류기를 찾아 알려지지 않은(Unseen) 데이터가 주어졌을 때 그것의 속성을 확인한 후 최적 분류기를 제안할 수 있다. 이와 더불어서 부류 값을 변경하여 회귀 분석을 통한 결과를 확인하고 분류 문제와 비교, 분석하여 최종 결론을 이끌어 낸다. 제안한 방법의 성능을 평가하기 위해 UCI 기계학습 데이터 저장소에 있는 총 44개의 공개 데이터를 이용한 실험을 수행하였고, 학습 분류기로는 베이지안 네트워크, 나이브 베이즈, SMO, C4.5, CART, k-NN, AdaBoost, Bagging을 사용하였다. 또한 회귀분석을 위해 다중선형회귀(Multi-linear Regression), 다층 신경망(Multi-layer Neural Network), 지역 가중 선형 회귀(Locally Weighted Linear Regression), M5, SMO 를 추가로 사용하였다.

more

초록/요약

In the field of machine learning, various classification methods have been used. In general, there could be a classifier which outperforms others for classification problems. However, by the principle of "No Free Lunch", if one classifier outperforms others for a specific problem, it could underperform other classifiers for different problems. Therefore, which classifier we should use to solve the problems much more depends on what features or requirements are on the problems than the general performance of classifiers. We try to consider more concrete methods in order possibly to choose the optimal classifier for a specific problem by considering the features of data. This try starts at forming data of the data, so-called metadata. To form metadata, we apply 8 classifiers ranked by corresponding number we already set for 44 data sets to get the result, accuracy, and extracted common features of the data sets. After doing this, we apply the classifiers once again for metadata formed and find one classifier which shows highest accuracy so that when unseen data appears, our result could give information about which one is the best. We also identify the result of regression analysis to get more details about the overall result and derive the final conclusion for our experiments. We perform our experiments to evaluate the proposed method, using 44 data sets from UCI Machine Learning Repository and 8 classifiers including bayesian networks, naive bayes, SMO, C4.5, CART, k-NN, AdaBoost, Bagging for the classification problem and five algorithms including Multi-linear regression, Multi-layer neural network, Locally weighted linear regression, M5, SMO for the regression analysis problem.

more