검색 상세

익스트림 그래디언트 부스팅 알고리즘에 기반한 축구 경기 예측

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 구명완
  • 발행년도 2020
  • 학위수여년월 2020. 2
  • 학위명 석사
  • 학과 및 전공 정보통신대학원 소프트웨어공학
  • UCI I804:11029-000000065127
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.

초록/요약

축구 경기 예측은 매우 인기 있는 주제이지만 큰 관심에도 불구하고 아직까지 학습 데이터로 무엇을 사용해야하는지, 어떤 모델을 사용해야하는 지에는 정확한 해답이 없다. 축구 경기는 다양한 변수들이 존재하고 데이터가 충분하지 않아 결과를 쉽게 예측할 수 없기 때문이다. 본 논문에서는 입력 변수로 이전 경기 데이터를 사용하고 모델로 인공신경망(Artificial Neural Network)과 XGBoost(eXtreme Gradient Boosting)를 사용하여 EPL(English Premier League) 경기 예측 실험을 진행한다. 그리고 인공신경망과 XGBoost 결과 비교를 통해 축구 경기 예측에 하나의 방법론을 제시한다. 축구 경기 데이터는 EPL 공식 사이트에서 데이터 크롤링 기법을 이용하여 수집하였으며 그 중 12개의 시즌(2007/08 ~ 2018/19) 4,560 경기 데이터를 실험 데이터로 선정하였다. 수집한 데이터는 전처리 과정 이후에 11개 시즌 데이터는 학습 및 검증 데이터로, 1개 시즌 데이터는 평가 데이터로 사용했다. 입력 변수는 실험을 통해 이전 3경기 평균 데이터를 선정했으며 선정한 입력 변수를 바탕으로 모델 매개변수 실험을 진행하였다. 실험 결과 인공신경망은 53.9%, XGBoost는 58.2%의 정확도를 보였다. 그리고 최종적으로 XGBoost 모델의 입력 변수 F1-Score 분석을 통해 233개의 입력 변수를 선정한 결과 59.2%의 정확도를 보였다. 이러한 결과로 축구와 같이 모델을 훈련시키는데 충분한 데이터가 존재하지 않고, 이미지나 음성 인식처럼 대규모 연구 커뮤니티가 존재하지 않아 아키텍처를 설계하는데 많은 비용이 들고, 경기 예측 외에 추가적인 분석이 필요한 도메인의 경우 XGBoost가 인공신경망의 훌륭한 대안이 될 수 있음을 확인하였다.

more

초록/요약

Predicting soccer matches is a very popular topic, but despite great interest, there is still no exact answer as which data to use and which model to use. This is because a soccer match has various variables and there is no enough data to predict the result. In this paper, I use the previous match data as input variables and use the ANN(Artificial Neural Network) and XGBoost (eXtreme Gradient Boosting) as models to conduct the EPL (English Premier League) match prediction experiment. And we propose a methodology to predict soccer match by comparing ANN and XGBoost result. The data used in the experiment was collected by the crawling technique from the official web site of EPL. Total 12 seasons (2007/08 ~ 2018/19) 4,560 match data were used as experimental. After preprocessing the collected data, 11 season data were used as training and validation and 1 season data as test. For the input variables, the previous three match average data were selected through experiments, and model parameter experiments were conducted based on the selected input variables. The results showed that the ANN was 53.9% and the XGBoost was 58.2% accurate. Finally, 233 input variables were selected by F1-Score analysis of XGBoost model, which showed 59.2% accuracy. And these results show that XGBoost can be a alternative to ANN for domains that do not have enough data to train models, expensive for architecture design because no large research community exists, and require further analysis in addition to match predictions like soccer.

more