검색 상세

시계열 데이터 전처리와 특징 선택을 활용한 기계 학습 기반의 주가 예측 모델

A Machine Learning-based Stock Prediction Model using Time Series Data Preprocessing and Feature Selection

초록/요약

주가 지수는 국가나 세계의 경제의 방향성과 경기를 판단할 수 있는 중요한 지표의 하나로, 이를 예측하기 위해 많은 연구가 있었다. 주가 지수는 시계열 데이터 이면서 다른 경제 지표들과 상관 관계를 가지고 있다. 본 논문에서는 주가 지수와 상관 관계가 있는 여러 경제 지표를 이용하여 시계열 데이터의 전 처리, 기계학습과 빅데이터 처리에서 많이 사용되는 특징 선택과 주요 기계학습 알고리즘을 이용하여 주가 지수를 효율적이고 정확하게 예측할 수 있는 모델을 찾기 위해 여러 방법들을 비교 실험하였다. 2011년부터 2015년까지의 미국, 일본, 독일 등 주요 국가의 주가 지수와 금리, 환율, 유가 등의 대표적인 경제 지표를 이용하여 15개의 입력 데이터와 코스피 지수 를 출력으로 하는 데이터 세트를 구성하였다. 시계열 데이터의 잡음을 없애는 전처리와, 시계열의 정상성을 고려한 데이터 전처리를 적용 하였다. 복잡도를 줄이고 예측의 정확성을 높이기 위한 특징 선택의 방법으로 그랜저 인과 검증, 주성분 분석, RFE 세가지 특징 알고리즘을 이용하여 가장 예측력이 높은 특징들의 부분 집합을 선택하였다. 이 데이터를 대표적인 기계학습 알고리즘인 SVM과 ANN을 이용하여 학습하고 검증 데이터로 예측을 하여 AUC를 이용하여 성능을 비교 분석 하였다. 그 결과 데이터 전처리와 RFE 특징 선택, 그랜저 검증 특징 선택과 ANN을 이용한 예측 시스템이 전처리와 특징 선택 없이 ANN만 이용한 시스템보다, 36.1% ~37.6%의 성능 향상이 있었고, 특징 선택은 최대 6.7% 정도의 성능 향상이 가져왔다. 시계열의 특성을 이용한 데이터 전처리로 예측의 성능을 높이고, 특징 선택으로 예측 성능과 예측 시스템의 효율을 높일 수 있었다.

more

초록/요약

A stock index is one of the important indices to forecast the economy and business. There have been many researches on the prediction of stock market. Stock index and price is time series data and it has a correlation with other economy and business indices. This paper compares and evaluates various algorithms to find the prediction model that has the cost effectiveness and accuracy. We use many stock indicies from important countries’ stock indices such as Dow Jones, Nikkei, Dax as well as economy indies such as a rate of interest, USD exchange rate and WTI. This paper uses the technical indices of moving average and Relative Strength Index (RSI) to preprocess the data such as removing the noise of time series data and keeping the stationary. In addition, this paper uses Granger Causality Test (GCT), Principal Component Analysis (PCA) and Recursive Feature Elimination (RFE) as feature selection methods to find the effective feature subsets. We use Support Vector Machine (SVM) and Artificial Neural Network (ANN) learning algorithms to train and predict data along with feature selection methods and the data preprocessing. We introduce the Receiver Operating Charateristic (ROC) curve and the Area Under the ROC curve (AUC) to compare the performance. Briefly, in Artificial Neural Network (ANN), data preprocessing with Recursive Feature Elimination (RFE) and Granger Causality Test (GCT) show the performance enhancement by 36.1%~37.6% against without the preprocessing, without the feature selection methods, and by 6.7% against without feature selection methods. Normally, we can assume that it would mean the decrease of the cost of big data processing such as the computation complexity, storages size, and data gathering time via network.

more