검색 상세

불균형 데이터 처리를 위해 적대적 오토인코더를 결합한 합성 소수 범주 오버샘플링 기법

Synthetic Minority Over-Sampling Technique with Adversarial Auto-Encoder for Imbalanced Data

초록/요약

일반적으로 기계학습 실험을 진행하기 위한 학습 데이터로는 범주 별로 데이터의 수가 비슷하게 구성되어 있는 것을 사용한다. 그러나 많은 실제 데이터들은 클래스 별로 데이터의 수가 비슷하지 않아 불균형 문제에 속하게 되고 이러한 경우 소수 범주에 속한 데이터들은 잘못 분류되어 성능이 낮게 나올 가능성이 높다. 이러한 데이터 불균형 문제를 해결하기 위해 기존의 오버샘플링 기법인 SMOTE, Borderline-SMOTE, ADASYN와 같은 연구들이 있다. 본 논문에서는 데이터의 특징이 추출된 잠재 변수 공간에서 SMOTE를 적용시켜 소수 범주 데이터를 오버샘플링 하는 기법을 제안한다. 특징이 추출이 잘된 잠재변수 공간이라면 소수 범주의 데이터 분포와 다수 범주의 데이터 분포는 명확한 구분을 띄기 때문에 더 정확한 오버샘플링을 할 수 있을 것이라는 가정을 바탕으로 한다. 이러한 특징을 추출하기 위해 적대적 오토인코더(Adversarial Auto-Encoder, AAE) 사용하는데, 실험을 통해 적대적 오토인코더의 잠재 공간에서 범주 별로 데이터의 분포가 확실하게 나뉘는 것을 확인하였다. 그리고 이 잠재 공간에서 SMOTE를 적용시켜 소수 범주와 다수 범주를 동일한 비율을 맞춘 후, SVM 기계학습 모델에 적용하였다. 그 결과로, 본 논문에서 제안한 기법과 기존의 오버샘플링 기법의 성능을 비교한 결과 제안 기법이 더 나은 성능을 보이는 것을 확인할 수 있었다.

more

초록/요약

For machine learning experiments, it is generally recommended that the number of training data is to be well balanced in each categories. However, many actual data fall into unbalanced problems because the number of data in each class is not similar, and in this case, data in the minority category is likely to be misclassified and have low performance. To solve this data imbalance problem, there are studies such as existing over-sampling techniques, SMOTE, Borderline-SMOTE, and ADASYN. In this paper, we propose a technique of over-sampling the minority category data by applying SMOTE to the latent variable space from which the data features are extracted. It is based on the assumption that if the feature is a well-extracted latent variable space, the data distribution of the minority category and the majority category are clearly distinguished, so that more accurate over-sampling is possible. We use an Adversarial Auto-Encoder to extract these features. We have confirmed through experiments that the distribution of data is classified by category in the latent space of the Adversarial Auto-Encoder. In this latent space, SMOTE is applied to match the minority category and majority categoriy at the same rate, and then applied to the SVM machine learning model. As a result, we compare the performance of the proposed method with that of the existing over-sampling techniques, and the proposed method yields better performance.

more