PPO와 DQN기반의 결측값 대치 및 불균형 데이터 분류 방법
PPO and DQN based Method for Missing Value Imputation and Imbalanced Data Classification
- 주제(키워드) 결측치 대치 , 강화학습 , 데이터 불균형 , DQN , PPO , Missing Value Imputation , Reinforcement Learning , Imbalanced Data , DQN , PPO
- 발행기관 서강대학교 일반대학원
- 지도교수 양지훈
- 발행년도 2020
- 학위수여년월 2020. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000065270
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
4차 산업혁명이 대두된 이래, 데이터에 알고리즘을 적용해 분석하는 방식은 여러 분야에서 사용되고 있다. 하지만 많은 실제 데이터들이 결측값을 가지고 있고, 클래스 별로 데이터의 수가 비슷하지 않아 불균형 문제에 속하게 된다. 이렇게 결측치가 존재하는 경우엔 제대로 된 분석이 어렵고 불균형의 경우 소수 범주에 속한 데이터들은 잘못 분류되어 성능이 낮게 나올 가능성이 높다. 그래서 결측치 처리와 데이터 불균형 문제를 해결하기 위해 다양한 방법들이 강구되어왔다. 대표적으로 결측치로 생기는 문제를 해결하기 위해 그 자체를 제거하거나 평균값, 최빈값, 그리고 중앙값 등으로 결측값을 대체하는 통계 방법이 있다. 또한 기계학습 방법으로는 K-최근접 이웃 탐색(K-Nearest Neighbor)를 활용하는 방법이 있다. 그리고 데이터 불균형 문제의 경우 언더 샘플링(Under-Sampling), 오버 샘플링(Over-Sampling)의 방법들이 있다. 본 논문에서는 결측치에 알맞은 대치 값을 찾고 데이터 불균형 문제를 해결하기 위해 강화학습(Reinforcement Learning)을 사용하는 기법을 제안한다. 결측치 대치의 경우 컨트롤러는 결측치에 알맞은 대치값을 추출 하도록 구성하고, 컨트롤러에서 나온 값을 대치값으로 해서 child모델에 넣어서 성능을 평가한다. child모델에서 나온 정확도로 보상값을 계산해서 PPO(Proximal Policy Optimization)알고리즘을 통해 child모델의 정확도가 높아지도록 대치값 생성 에이전트를 학습시켜서 더 적절한 대치값을 산출하도록한다. 불균형 데이터의 경우 DQN(Deep Q-Network)알고리즘을 통해서 각 클래스 샘플 수에 따라 보상을 줘서 소수 범주에 있는 데이터가 더 잘 분류될 수 있도록 하였다. 제안한 강화학습 모델을 통해 얻은 성능과 기존의 결측치 처리 방법, 불균형 데이터 처리 방법의 성능 비교를 통해 제안한 기법이 더 나은 성능을 보이는 것을 확인하였다.
more초록/요약
Since the emergence of the 4th industrial revolution, the method of analyzing by applying algorithms to data has been used in various fields. However, many of the actual data have missing values, and the number of data instances is not the same for each class, which leads to an imbalance problem. If such missing values exist, proper analysis is difficult, and in the case of imbalance, the data belonging to the minority category are likely to be misclassified, resulting in low performance. Therefore, various methods have been devised to solve the problem of missing values and imbalanced data. Typically, to solve the problem of missing values, there is a statistical method that ignores or replaces missing values with mean, mode, or median values. There is also a machine learning method that utilizes the k-nearest neighbor search. And in the case of imbalanced data, there are methods of under-sampling and over-sampling. In this paper, we propose a technique that uses reinforcement learning to find the suitable imputation value for the missing value and to solve the imbalanced data problem. In the case of imputation of missing values, the controller is configured to extract the suitable imputation value and the extracted value from the controller is applied as the imputation value to evaluate the performance by putting it in the child model. Rewards are calculated with the accuracy derived from the child model, and the imputation value generation agent is trained to increase the accuracy of the child model through the PPO algorithm, so that the appropriate imputation value is calculated. In the case of imbalanced data, rewards are given according to the number of samples in each class through the DQN algorithm, so that data in a small number of categories can be better classified. The performance obtained through the proposed reinforcement learning model, the performance of the existing missing value processing method, and the imbalanced data processing method were compared to confirm that the proposed technique shows better performance.
more