주식 가격 방향성 예측에 대한 변수 선택 및 변수 중요도 분석
Feature Selection and Feature Importance Analysis for predicting the direction of stock price
- 주제어 (키워드) 머신러닝 , 변수 중요도 , 변수 선택 , 랜덤 포레스트 , 계층적 군집화 , 그래프 알고리즘 , 근접 중심성 , 금융시장 , machine learning , feature importance , feature selection , random forest , hierarchical clustering , graph algorithm , closeness centrality , financial market
- 발행기관 서강대학교 일반대학원
- 지도교수 정재식
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 경제학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000070209
- UCI I804:11029-000000070209
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
기계학습의 뛰어난 성능을 바탕으로 기계학습을 통해 주가를 예측하고자 하는 연구가 활발히 이루어졌다. 그러나 기계학습 모형은 모형의 복잡도가 높아 예측 과정을 추론하기 어렵다는 단점이 있다. 본 논문에서는 이를 보완하고자 기간에 따라 변수 중요도를 분석한다. 기술적 지표, 거시경제 변수를 설명 변수로 하여 S&P500의 20일 이후 방향성을 예측하는 랜덤 포레스트 모형을 설정한다. 또한 계층적 군집화와 그래프 알고리즘의 근접 중심성을 통해 변수를 선택하는 방법을 제시한다. 이를 통해 설명 변수의 다중공선성을 낮춰 변수의 상관계수가 높을 때 변수 중요도가 하향 평준화되는 문제를 해결하고 차원을 축소한다. 실증 분석 결과 전반적인 기간에서 Moody's AAA회사채(20년물)수익률-기준금리 스프레드의 변수 중요도가 가장 높았다. 그러나 2002년 닷컴 버블, 2008년 글로벌 금융위기, 2020년 코로나19로 인해 금융 시장에 충격이 있었던 시기에 변동성 지표의 변수 중요도가 가장 높았음을 밝혔다.
more초록 (요약문)
Forecasting capabilities of machine learning algorithms on cash equity prices have been actively researched. However, complexities of such algorithmic models give rise to interpretability issues, regarding the understanding of the forecasting processes. To address this issue, this paper incorporates time varying feature importance analyses within the forecasting process. A random forest model is set up with macroeconomic and technical analysis variables as input. The label is 20-day SP500 index directionality. Additionally, this paper suggests a feature selection process that utilizes hierarchical clustering and graph-network centrality. The method addresses issues of leveled-down feature importances, in the presence of correlated variables, by reducing multicollinearity between input features. Empirical analyses display Moody's 20y AAA corporate bond yields as most important. However, volatility features show highest importance during external shock periods, such as the dot-com bubble (2002), subprime mortgage crisis (2008) and the COVID-19 crisis (2020).
more