검색 상세

심층신경망의 설명가능성과 하이퍼파라미터 특성에 관한 연구 : 중소기업 신용평가를 중심으로

A Study on the explainability and hyperparameter characteristics of Deep Neural Networks

초록 (요약문)

중소기업의 재무제표에 대한 신뢰성 문제는 오랫동안 제기되어 왔으며 이에 따라 결측치 및 이상치 비중이 상대적으로 높을 뿐만 아니라 오류에 의한 값인지 실제 값인지 명확하게 확인하기 어렵다. 이러한 이유로 일반적으로 신용평가모형 구축 시 결측치와 이상치 값을 모두 제거하기 때문에 정보의 활용성이 낮을 뿐만아니라 정확하고 고도화 된 모형 구축에 어려움이 있었다. 본 연구에서는 이러한 중소기업 신용평가의 정보의 비활용성에 주목하여 업종별(제조업, 도소매업, 기타서비스업)로 활용되지 못했던 이상치와 예외값을 활용하여 심층신경망을 활용한 고도화된 신용평가 모형을 구축하고 결과를 해석함으로 그 의미를 찾고자 한다. 이를 위한 분석자료는 중소기업통합시스템(SIMS)에 해당하는 기업을 선별하여 총 1,758,760개의 데이터이며, 이용한 알고리즘은 로지스틱 회귀모형과 심층신경망 알고리즘을 이용하고 설명 가능한 AI 기법(XAI)을 활용하여 유의한 변수를 도출하였다. 두 모델 중 업종 모두 심층신경망의 AUC 값이 높았으며, 부도 예측에 기여도가 높은 변수들은 이상치 변수를 포함하여 업종별 재무적 특징을 잘 반영한 결과를 보였다. 이에 따라 부도 예측에 영향을 미치는 변수를 해석하고, 모형이 갖는 사용변수의 제약성을 줄이고 모형의 안정성과 일반화가 가능하다는 결론을 내릴 수 있었다.

more

초록 (요약문)

In general the reliability of financial statements of SMEs has been raised for a long time and it is difficult to study the advancement of credit rating models due to the difficulty of data collection. Therefore it is difficult to clearly confirm whether the missing value and outliers are relatively high, and whether it is an error or an actual value. This study focuses on the complexity of credit rating and the in-use of information. It aims to find the meaning of the model by creating and interpreting the credit rating model by utilizing outliers and exceptions that were not used by industry manufacturing wholesale and retail and other services The analysis data for this is 1,758,760 data by selecting companies that correspond to SIMS. The algorithm used is logistic regression model and deep neural network algorithm and significant variables are derived by using explainable AI. The AUC value of deep neural network was high in all industries and variables that contributed to the bankruptcy prediction were well reflected in financial characteristics by industry including outlier variables. Therefore it was concluded that the variables affecting the bankruptcy prediction were analyzed the constraints of the use variables of the model were reduced and the stability and generalization of the model were possible.

more