XGBoost와 GPT-4o를 활용한 축제 방문객 예측 모델 : 문화관광축제를 중심으로
- 주제어 (키워드) 문화관광축제 , 머신러닝 , 관광산업 , XGBOOST , GPT-4o
- 발행기관 서강대학교 일반대학원
- 지도교수 김주영
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 경영학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079806
- UCI I804:11029-000000079806
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 축제 방문객 수 예측과 축제 포스터 분석을 통해 축제 기획 및 운영의 효율성을 높이고자 하였다. 축제는 지역의 경제, 사회, 문화적 가치를 창출하며 관광산업과 지역 활성화에 중요한 역할을 하지만, 방문객 수 예측과 홍보 전략 수립 과정에서 여전히 체계적이고 과학적인 접근이 부족한 상황이다. 실제로 예상 방문객 수가 실제보다 작게 예측되는 경우, 지자체는 축제를 통한 최대 이익을 놓칠 수 있으며 실제보다 크게 예측하는 경우, 과도한 축제 시설과 인력의 준비로 예산의 낭비가 초래될 수 있다. 이에 본 연구는 머신러닝 알고리즘인 XGBoost 를 활용하여 축제 방문객 수를 예측하는 모델을 개발하였으며, GPT-4o 모델을 사용해 축제 포스터의 텍스트 데이터를 정량적으로 분석하였다. 연구 데이터는 개최 계절, 도 인구 수, 배정 예산, 축제 기간, 포스터 설명글 등 방문객 수에 영향을 미칠 수 있는 다양한 요인을 포함하여 구성되었다. 축제 포스터 분석에서는 GPT- 4o 모델을 활용하여 포스터의 디스크립션을 기반으로 축제의 정체성과 목표를 함축적으로 전달하는 슬로건의 효과를 평가하였다. 이를 통해 슬로건과 포스터의 품질이 방문객 유치에 미치는 영향을 간접적으로 확인할 수 있었다. GridSearchCV를 통해 최적의 하이퍼파라미터를 탐색하고, XGBoost 모델의 성능을 최적화하였다. 분석 결과, Model 3 에서 가장 높은 예측 성능을 확인하였다. 본 연구는 축제 방문객 수 예측과 포스터 분석을 결합한 융합적 접근을 통해 축제 기획 및 운영의 과학적 기반을 제시하였다. 이러한 연구 결과는 축제 기획자와 관련 이해관계자들에게 실질적인 가이드라인을 제공하며, 축제 산업의 발전 가능성을 높이는 데 기여할 수 있을 것이다.
more목차
제 1장. 서론 2
1) 연구 배경 2
2) 연구 목적 3
3) 논문 구성 4
제 2장. 이론적 배경 및 선행연구 5
1) 이벤트 산업 5
1.1. 이벤트 산업 내 축제 5
1.2. 문화관광축제 7
2) 축제 관련 실증 연구 9
2.1. 축제 방문객 예측 9
2.2. 축제 포스터 분석 10
3) 머신러닝 방법론 11
3.1. 앙상블 학습 (Ensemble Learning) 12
3.2. XGBOOST (Extreme Gradient Boosting) 12
4) GPT-4o 15
제 3 장. 연구 설계 19
1) 변수 설정 19
1.1. 종속변수 19
1.2. 독립변수 19
1.2.1. 개최일 (연도, 월, 요일) 21
1.2.2. 진행 기간 22
1.2.3. 진행 횟수 22
1.2.4. 배정 예산 22
1.2.5. 날씨 관련 (기온, 강수량, 풍속) 23
1.2.6. 축제 종류 23
1.2.7. 슬로건 24
1.2.8. 포스터 관련 (점수, 설명) 26
1.2.9. 인구수 (도, 행정) 27
1.2.10. KTX역 유무 27
2) 데이터 수집 27
3) 데이터 전처리 29
3.1. 수치형 데이터 29
3.2. 범주형 데이터 32
3.2.1. 축제 관련 기본 변수 33
3.2.2. 텍스트 데이터 33
제 4 장. 예측 모형 선택 및 평가 39
1) 예측 모형 선정 39
2) 예측 모형 성과 검증 지표 39
제 5 장. 모델 구축 및 결과 41
1) 연구 환경 구성 41
2) XGBoost 파라미터 설정 41
3) 축제 방문객 예측 42
3.1. Model 1 (축제 데이터) 42
3.2. Model 2 (축제 데이터 + 포스터 평균 점수) 43
3.3. Model 3 (축제 데이터 + 포스터 평균 점수 + 텍스트) 45
제 6 장. 결론 및 시사점 47
1) 결과 47
2) 이론적 시사점 48
3) 실무적 시사점 49
4) 한계점 및 향후 연구방향 50
참고문헌 52