검색 상세

딥러닝 기반 이미지 분류 문제에서 불균형 데이터를 학습하기 위한 하이브리드 전이 학습 기법

A Hybrid Transfer Learning Method for Training Imbalanced Data in Deep Learning Based Image Classification

초록/요약

최근 머신 러닝이 여러 분야에 적용되면서 데이터 마이닝(Data Mining)의 중요성이 커지고 있다. 일반적으로 컴퓨터 비전의 머신 러닝에 사용되는 MNIST나 CIFAR10 등의 벤치마크 데이터들은 모든 클래스들이 균일한 개수를 가지고 있고, 대부분 비슷한 분포를 이루고 있다. 하지만 현실에서 마이닝 할 수 있는 대부분의 데이터들은 비슷한 개수를 모으기도 힘들고, 비슷한 수의 데이터를 모았다 하더라도 각 클래스 당 데이터의 질 또한 다를 수 있다. 마이닝 결과 이러한 문제를 가지고 있는 데이터들을 편향된 데이터 또는 불균형 데이터라고 한다. 모델에 불균형 데이터를 학습시키게 되면 모델은 각 클래스의 특징을 제대로 학습하지 못하게 되고, 예측 결과도 편향되는 등의 문제가 나타날 수 있다. 이와 같은 편향 문제를 해결하기 위해 여러 재표본(Resampling) 기법들이 연구되고 있는데, 재표본 기법은 언더 샘플링(Undersampling) 기법과 오버 샘플링(Oversampling) 기법으로 나누어진다. 하지만 기존의 재표본 기법들은 고차원 데이터에서 효과적으로 작용하지 못해 모델 성능이 약간 상승하거나 오히려 떨어지는 경우가 많다. 따라서 재표본 기법 외에 모델의 성능을 높일 다른 방법이 필요하다. 본 논문에서는 불균형 데이터를 학습시킬 때, 각 기법들의 ACSA(Average Class Specific Accuracy)와 GM(Geometric Mean) 비교를 통해 IR(Imbalanced Rate)에 따른 두 가지 학습 방법을 사용하고 그를 통해 IR의 변화에 따라 어떤 학습 방법이 좋은지 선택할 수 있도록 한다. 첫 번째 학습 방법은 미세 조정 학습 방법으로 전이 학습의 학습법을 적용한 것이며, 두 번째로 불균형 학습 방법이다. 불균형 학습 방법은 전체 데이터 셋을 처음부터 학습시키는 것이다. 또한, 메이저 클래스만을 이용한 검증 데이터 셋을 만들어 각 학습 방법을 적용할 IR 임계값을 알아내 전체 데이터 셋을 학습할 모델에 적용함과 동시에, 전체 데이터 셋과 검증 데이터 셋이 모두 각 IR마다 ACSA가 비슷하게 나온다는 점을 통해 오버 샘플링 시 ACSA의 베이스 라인으로도 사용 가능하게 한다. 실험 결과에서는 제안한 IR에 따른 모델의 학습 방법을 적용해 언더 샘플링 기법보다 높은 분류 정확도를 달성했고, 검증 데이터 셋의 결과를 통해 효과적으로 오버 샘플링 했을 경우의 모델 성능을 비슷하게 예측할 수 있음을 보여준다.

more

초록/요약

Recently as machine learning has been applied to many fields, the importance of data mining is increasing. Benchmark data such as MNIST or CIFAR10 which are commonly used for machine running of computer vision have a uniform number of classes, and are mostly similar in distribution. However in reality, most of the data that can be mined is difficult to collect a similar number per classes, and even if a similar number of data is collected, the quality of the data per class can be different. As a result of mining, data with these problems are referred to as biased or imbalanced data. Learning imbalanced data on a model can lead to problems such as poor learning of the characteristics of each class and biased forecasting results. To solve this bias problem, several re-sampling techniques are being studied, which are divided into under-sampling and over-sampling techniques. However, traditional re-sampling techniques often fail to work effectively in high dimension data, resulting in a slight increase or decrease in model performance. Therefore, in addition to the re-sampling technique, other ways to enhance the performance of the model are needed. In this paper, when learning unbalanced data, we use two learning methods under the Average Class Specific Accuracy (ACSA) and the Geometric Mean (GM) comparison of each technique, which allows us to choose which learning methods are good as IR changes. The first learning method is to apply the learning method of transfer learning as a fine-tuning learning method, and the second is an imbalanced learning method. The imbalanced learning method is to learn the entire dataset from scratch. Furthermore, we create a validation dataset using only major classes data to find IR thresholds to apply each learning method to the model where we will learn the entire dataset, while also making it available as the baseline of ACSA for oversampling, as well as the overall dataset and validation datasets both appear similar to ACSA for each IR. Experimental results show that the model's learning methods under the proposed IR have been applied to achieve higher classification accuracy than the under-sampling technique, and that the results of the validation dataset can similarly predict the model's performance when effectively oversampled.

more