검색 상세

KOSPI 방향 예측에 대한 랜덤포레스트 기반 군집화 변수중요도 분석

Random Forest-Based Clustered Variable Importance Analysis for Predicting KOSPI Direction

초록

최근 기계학습을 이용한 주가지수 방향의 예측에 대한 관심이 증가하면서 모형의 성능을 향상시키는 연구가 많이 이루어졌다. 하지만 기계학습 모형을 통해 예측변수를 분석하여 주식시장과 변수 간의 관계를 분석한 연구는 드물다. 본 연구에서는 랜덤포레스트 분류기 모형을 이용해 기술적분석 지표, 투자주체별 수급, 거시경제 변수를 예측변수로 하여 KOSPI 지수 방향을 예측한 후, 학습된 랜덤포레스트 모형의 순열중요도(permutation importance)를 측정해 변수에 대해 분석했다. 이 때 변수 간 상관관계가 존재할 경우 중요도 측정에 하향 편향이 생기므로, 계층적 군집화를 이용해 상관관계가 있는 예측변수끼리 군집화한 후 각 변수군집에 대해 중요도를 측정하는 방법을 사용했다. KOSPI 지수의 1일, 5일, 20일 후의 방향을 각각 목표변수로 하여 변수중요도를 비교한 결과, 1일 방향에 대해서는 환율로 대표되는 변수군집이 큰 중요도를 보였으며 5일 및 20일 방향에 대해서는 장기적 시장 추세와 시장 변동성으로 대표되는 변수군집이 큰 중요도를 보였다.

more

초록

As the interest in predicting the direction of stock indices using machine learning has recently increased, there have been many studies focusing on improving the performance of the model. However, there are few studies that analyze the relationship between the stock market and the market variables by interpreting the variable importance of a machine learning model. This study measured the permutation importance of a random forest classifier using technical analysis indicators, net purchases by different investors, and macroeconomic variables as predictors, and the direction of KOSPI index as the target variable. Since there is a downward bias in the importance for the correlation between variables, this paper used hierarchical clustering for the correlated predictors, to measure the importance of each variable cluster. As a result of predicting the direction of KOSPI index after 1, 5, and 20 days, the variable cluster represented by the exchange rate showed great importance for the 1-day direction, and the variable clusters represented by the long-term market trend and the market volatility showed great importance for the 5-day and 20-day directions.

more