검색 상세

중소기업의 채무불이행 예측에 관한 연구 : 예측 알고리즘 비교

A Study on the Default of Small and Medium-sized Enterprises : Comparison of Prediction Algorithms

초록 (요약문)

본 논문에서는 효율적인 중소기업의 채무불이행 예측을 위해 다양한 예측 모형을 구현하여 모형의 성능과 변수의 중요도를 확인하였다. 의사결정나무 앙상블의 Gradient Boosting과 Random Forest 기법을 예측 모형으로 적용하고자 하였으며 로지스틱 회귀모형, Support Vector Machine, Artificial Neural Network 모형과 비교하였다. 실증 분석에는 미국 중소기업청에서 제공하는 기업대출 데이터를 활용하였으며, 데이터 전처리 과정 후 총 10만 개의 데이터를 알고리즘 학습에 사용하였다. 모형 성능의 평가 방법은 정확도와 민감도, 정밀도, Kappa 계수, AUC 값을 기준으로 하였다. 연구결과를 종합해보면, 방법론적 측면에서 Gradient Boosting, Random Forest 모형은 타 예측 모형보다 월등히 우수한 성능을 보였으며, 기존 연구에서 주로 활용되었던 로지스틱 회귀모형의 성능은 가장 낮은 수준을 보였다. 변수 중요도 측면에서는 대출 기간이 가장 높은 중요도를 보였으며, 기업의 소재지와 대출 은행의 소재지 일치 여부가 중요하게 나타났다. 또한, 본 연구 에서 주목하고자 했던 대출 보증정책의 영향이 채무불이행 여부에 유의미하게 작용하고 있음을 확인하였다. 이상의 결과는 의사결정나무 앙상블 기법이 예측 알고리즘으로서 적극적으로 활용될 필요가 있음을 시사하고 있으며, 높은 중요도를 보인 변수들을 향후 중소기업 채무불이행에 관한 연구를 수행할 때 주요 변수로 고려한다면 보다 우수한 예측 모형을 구현할 수 있을 것으로 기대한다.

more

초록 (요약문)

In this paper, various predictive models are evaluated for predicting SME default problem, and the important variables are identified. The Gradient Boosting and Random Forest methods of the decision tree ensemble are applied as predictive models, and compared with logistic regression models, Support Vector Machine, and Artificial Neural Network models. For empirical analysis, corporate loan data provided by the US SBA are used, and finally of 100,000 data are used for algorithm learning after the data preprocessing. The evaluation method of model performance includes accuracy, sensitivity, precision, Kappa coefficient, and AUC value. To summarize the results of the study, in terms of methodology, the decision tree ensemble method, the Gradient Boosting and Random Forest models, show better performance than other prediction models, and the logistic regression models show the lowest level. In terms of variable importance, the loan period shows the highest importance, and it is important whether the location of the company and the location of the loan bank are matched or not. In addition, it is confirmed that the impact of the loan guarantee policy, which is noted in this study, has a significant effect on whether or not the debt is defaulted. The above results suggest that the decision tree ensemble method needs to be actively used as a predictive algorithms, and it is expected that a better predictive model can be implemented if variables with high importance are considered as major variables when conducting research on SME default in the future.

more