NBA선수들의 퍼포먼스와 연봉의 관계 분석 : 임계값(threshold)을 활용하여
- 주제어 (키워드) NBA , 연봉 예측 , 구단 전체 연봉 상한선 대비 연봉 비율 , 두 단계 모 델 , 임계값(threshold) 방식 , XGBoost , 랜덤포레스트 , 계층화그룹 K-Fold 교 차검증 , 선수 성과 지표 , 시차효과 , NBA , salary prediction , salary ratio relative to team salary cap , two-stage model , threshold method , XGBoost , Random Forest , stratified group K-Fold cross-validation , player performance metrics , time-lag effect
- 발행기관 서강대학교 일반대학원
- 지도교수 김명석
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 경영학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000082029
- UCI I804:11029-000000082029
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 NBA 선수의 연봉을 구단 연봉 상한선 대비 연봉 비율(Level)로 정의하고, 이를 순서형 범주로 변환하여 다음 시즌 등급을 예측하는 임계값 (threshold) 기반의 이 단계 모델을 제안한다. 첫 번째 단계에서는 XGBoost 분류기를 통해 선수별 현 시즌 성과 및 계약 정보를 바탕으로 다음 시즌 등급 이 변화할 등급을 예측하고, 두 번째 단계에서는 첫 단계에서 산출된 확률이 최적 임계값(threshold) 이상인 소수 선수만 대상으로 XGBoost 분류기를 통해 다음 시즌 등급을 세부 예측한다. 이 과정에서 현재 등급(Level), 이전 등급 (prev_Level), Win Shares(WS), 출전 시간(MP), 나이(Age), 득점 평균(PTS), 필드골(FG), 시즌 연도(year) 등의 공격 및 수비 효율 지표를 입력 피처로 활 용하였다. 또한 동일 선수가 학습과 검증에 중복되지 않도록 선수별 최빈값 기준으로 계층화그룹(Stratified Group) K-Fold 교차검증을 수행하였다. 교차 검증 결과 평균 약 72.3%의 정확도를 달성했으며, 테스트 세트에서도 약 71.6%의 유사한 성능을 확인하였다. 특히 최적 임계값(threshold)(약 0.36) 적용 시 학습 정확도가 80.5%까지 상승하여, 변화 확률이 일정 수준 이상인 소수 선수를 중심으로 예측함으로써 모델 효율성을 향상시킬 수 있음을 확인 하였다. 이 연구는 장기 계약에 따른 시차와 비공개 옵션 조항 등 복합적 요 인을 일부 반영할 수 있는 새로운 모델 구조를 제시하였으며, 구단 전체 연봉 상한선 대비 상대적 위치(Level)를 예측 지표로 도입했다는 점에서 학문적, 실무적 기여가 있다. 주제어: NBA, 연봉 예측, 구단 전체 연봉 상한선 대비 연봉 비율, 두 단계 모 델, 임계값(threshold) 방식, XGBoost, 랜덤포레스트, 계층화그룹 K-Fold 교 차검증, 선수 성과 지표, 시차효과
more초록 (요약문)
This study defines an NBA player’s salary as the ratio of the player’s salary to the team’s salary cap (Level), converts this into ordinal categories, and proposes a two-stage, threshold-based model to predict the player’s salary level for the following season. In the first stage, an XGBoost classifier predicts whether a player’s salary level will change in the next season based on current season performance and contract information. In the second stage, only a small subset of players whose predicted probability from the first stage exceeds an optimal threshold are further analyzed using an XGBoost classifier to make a detailed prediction of the next season’s salary level. Input features include current level (Level), previous level (prev_Level), Win Shares (WS), minutes played (MP), age (Age), points per game (PTS), field goals (FG), and season year (year), which represent both offensive and defensive efficiency metrics. To prevent data leakage, stratified group K-Fold cross-validation was performed based on the most frequent value per player, ensuring that the same player did not appear in both the training and validation sets. The cross-validation results showed an average accuracy of approximately 72.3%, and a similar performance of about 71.6% was observed on the test set. Notably, when applying the optimal threshold (approximately 0.36), training accuracy increased to 80.5%, demonstrating that focusing predictions on a small group of players with a sufficiently high probability of change improves model efficiency. This study presents a novel model structure capable of partially accounting for complex factors such as time lags from long-term contracts and undisclosed option clauses, and makes both academic and practical contributions by introducing the player’s relative position (Level) to the team’s salary cap as a predictive indicator. Keywords: NBA, salary prediction, salary ratio relative to team salary cap, two-stage model, threshold method, XGBoost, Random Forest, stratified group K-Fold cross-validation, player performance metrics, time-lag effect
more목차
Ⅰ.서론
연구의 배경과 목적 1
Ⅱ.문헌연구
1.NBA선수 연봉 예측 동향 3
2.성과와 연봉의 시차 4
3.확률 기반 임계값 기법의 적용 4
4.모델 선정 이유 5
5.본 연구의 차별점 6
Ⅲ.데이터셋 소개
1.데이터 소개 8
2.연봉 정규화 및 범주화 13
3.등급 기반 예측 모델의 타당성 분석 14
4.데이터 전처리 15
Ⅳ.모델 설계
1. 등급 변화 가능성 산출 16
2. 다음 년도 등급 예측 17
Ⅴ.모델평가
1.교차검증 18
2.혼동 행렬 20
3.ROC곡선 23
4.임계값산출 25
5.변수 중요도 26
5.1. 1단계 변수 중요도 26
5.2. 2단계 변수 중요도 28
6. 모델비교 30
Ⅵ.결론
연구결론 32
시사점 32
한계 33

