검색 상세

Development and Analysis of a Statistical Arbitrage Model : Machine learning for algorithmic trading on the Korean stock market

초록/요약

컴퓨팅 능력, 인공지능 및 목표 지향적 투자의 인기가 높아짐에 따라 자동화된 투자모형들이 점점 더 널리 보급되고 있다. 특히, 인공지능은 개인들이 로보 어드바이저를 통해 저렴한 비용으로 투자 목표를 달성할 수 있게 해주었다. 과거 포트폴리오 주문 제작에 요구되었던 높은 관리비용은 이제 머신러닝 알고리즘들을 통해 대폭 감소했다. 이러한 머신러닝 알고리즘의 핵심에는 이를 작동하게 하는 몇 가지 엔진들이 있다. 이 중 가장 중요한 것들은 자산 선택, 가중치 최적화, 그리고 스마트 리밸런싱 엔진들이다. 본 연구는 위 엔진들 중 자산 선택 문제에서의 자동화에만 집중하고, 구체적으로는 어떤 자산을 선택할지 뿐만 아니라 일단위로 매일 얼마나 많은 자산을 선택할지에 대해서 연구한다. 본 연구에서는 자산들을 선택하기 위해 통계적 재정거래를 사용한다. 즉, 시장을 능가할 가능성이 가장 높을 것이라는 측면에서 주식들의 순위를 매기기 위해 시장으로부터의 통계적 신호를 사용한다. 이 과정에서 평균 회귀를 시장 수익률을 초과하는 수익률을 창출할 자산들을 선택하는 메커니즘으로 사용한다. 그리고 시장의 신호는 시간에 따라 계속 변하기 때문에, 연구에서의 모형들은 과거 데이터를 기반으로 3년 이동 윈도우 방식으로 매년 재훈련된다. 한편, 포트폴리오에 선택된 자산들은 포트폴리오 내에서 얼마나 많은 자산이 선택되느냐와 밀접하게 연관된다. 또한, 선택할 자산의 수는 시장 환경에도 의존하므로, 동적으로 변화하는 모형별 최적 자산의 숫자를 선택하기 위해 자동화된 규칙 기반 테크닉이 매일 실행된다. 본 연구에서는 4 가지 분류 모형과 2가지의 앙상블 모형, 총 6가지의 머신러닝 모형들을 활용한다. 4가지 분류 모형들은 로지스틱 회귀, 딥러닝 신경망, 랜덤 포레스트, 그래디언트 강화 나무이며, 각 분류 모형 알고리즘은 자산들을 분류하는 방식에서 고유한 특징을 가지고 있다. 한편, 매일에 대한 사후 확률은 시장을 가장 능가할 가능성이 높은 순서대로 순위가 매겨진다. 그리고 사후 확률들은 어느 특정 모형의 위험을 완화하기 위해 기본 모형들의 다양성을 사용하는 두 개의 앙상블로 결합하는데 사용된다. 우선, 간단한 소프트 투표 앙상블 모형은 각 기본 분류 모형의 확률들의 평균을 사용하여 주식들의 순위를 정한다. 그리고 가중치를 부여한 앙상블 모형은 기본 모형들의 최근 5일간의 성과를 자산의 수에 따른 성과 변화까지 고려하여 다른 기본 분류 모형들을 능가하는 기본 모형에 더 많은 가중치를 부여한다. 본 연구에서는 13년 동안의 코스피 200 데이터로 연구 모형들을 테스트한다. 각 모형들은 본 기간 동안 각 모형들에 의해 선택된 포트폴리오의 로그 수익률로 평가된다. 6가지 머신러닝 모형들은 자산 선택 성과에 의해 비교되고 또한 자동화된 포트폴리오 집중 선택을 위해 제안된 방법과도 비교된다. 모든 모형들은 시장의 벤치마크를 능가하는 수익 창출이 가능할 것으로 보인다. 포트폴리오 집중 선택 자동화 방법은 이용 가능한 자산 가격 데이터만 활용하는 자산 선택 및 포트폴리오 설계에 효과적인 방법일 것으로 보인다. 본 연구는 효과적인 자산 선택 모형을 제시하였지만, 포트폴리오 최적화나 리밸런싱 전략을 포함하지 않았기 때문에 완전한 투자 전략은 아니다. 하지만, 본 연구는 효과적인 자산 선택과 매 거래일마다 모형 및 시장의 성과로 업데이트하는 포트폴리오 내 선택 자산의 수 최적화를 위한 자동화 시스템을 활용한다. 또한, 포트폴리오의 집중과 함께 기본 모형의 성과를 활용하여 동일 가중치가 부여된 앙상블 모형을 능가하는 효과적인 가중치 부여 앙상블 모형을 제안하였다. 본 연구 결과들이 시간 기반 머신러닝 분류 모델링뿐만 아니라 자동화 거래 전략에 관한 문헌에도 기여하기를 기대한다.

more

초록/요약

Automated investment models are becoming more and more widespread with increases in computing power, artificial intelligence, and the popularity of goal-oriented investing. Artificial intelligence has allowed for investment goals to be reached on an individual level at low cost via Robo-advisors. What once required high management costs for custom-made portfolios can now be achieved through machine learning algorithms and distributed at a fraction of the cost. At the heart of these machine learning algorithms are several engines that drive them. Of most importance are the asset selection, weight optimization and smart rebalancing engines. This study focuses solely on automating the asset selection problem and extends it to include not only which assets to select, but how many to select on each day. This study uses statistical arbitrage to select assets wherein statistical signals from the market are used to rank stocks in terms of which are most likely to outperform the market. This process uses mean-reversion as the mechanism to select assets in order to generate profits that outperform the market. Since market signals change over time, the models are retrained annually based on past data using a 3-year moving window. Which assets that are selected in the portfolio are interrelated with how many assets that are selected. The number of assets selected also depends on the market environment, and therefore, an automated rule-based technique is implemented on each day to select a dynamically changing optimal number of assets for each model. The machine learning models utilized include four classification models, and two heterogeneous ensembles. The classification models are logistic regression, deep learning neural networks, random forests and gradient-boosted trees. Each classification model algorithm is diverse in how it classifies assets. The posterior probabilities for each day are ranked in order of most likely to outperform the market to the least likely to outperform the market. The posterior probabilities are combined in two ensembles that use the diversity of the base models to mitigate the risk of any specific model. A simple soft voting ensemble uses the average of the probabilities for each base classifier model to rank stocks. Utilizing the past 5-day performance of the base models, a weighted ensemble method is proposed that leverages the performance of the models with the changing number of assets to give more weight to the base classifier models that are outperforming other base classifier models. The models are tested on the KOSPI 200 over a 13 year out-sample period. This performance period is evaluated using the log returns of the portfolios selected by each model. The six machine learning models are compared by asset selection performance as well as the proposed method for automated portfolio concentration selection. All models are shown to be viable in terms of generating returns that outperform the benchmark. The automated portfolio concentration selection is demonstrated to be an effective method for asset selection and portfolio construction that only uses available asset price data. Logistic regression outperforms the benchmark by more than 6% by annualized returns over the performance period. The deep neural network achieved over 3% above the benchmark, while the random forests and gradient-boosted trees performed over 5% annualized excess returns over the benchmark. The weighted soft voting ensemble outperformed the simple soft voting ensemble in excess of 5% and 4% excess annualized returns, respectively. After applying simulated transaction fees, the models still outperformed the benchmark with Sharpe Ratios all exceeding 1 and half exceeding 1.5. This study demonstrates an effective asset selection model, however, it is not a full investment strategy because it does not include portfolio optimization nor rebalancing strategies. However, it does utilize a fully automated system for effective asset selections and an optimization of the number of assets to include for each trading day which updates with the performance of the models and market. Furthermore, an effective weighting ensemble method is proposed that utilizes the performance of the base models in conjunction with the portfolio concentrations to outperform an equally-weighted ensemble. The results are expected to contribute to the literature on automated trading strategies as well as time-based machine learning classification modeling.

more