검색 상세

Predictive Modeling of Short-Form Video Interaction : Leveraging LMM LLaVA for Enhanced Accuracy

숏폼 영상 상호작용 예측 모델링 : LMM LLaVA 모델을 활용한 정확도 향상 접근법

초록 (요약문)

This study aims to enhance the predictive performance of user interactions (Likes, Saves, Comments) on TikTok short-form videos by integrating structural metadata and textual data, including AI-generated descriptions from the LLaVA model, a Large Multimodal Model (LMM). A dataset of 5,680 TikTok videos was utilized, with text data processed via BGE-M3 embeddings and PCA for dimensionality reduction. The study applied XGBoost to construct prediction models and employed SHAP and t-SNE to analyze feature importance and uncover hidden data patterns. The results demonstrate that the inclusion of textual data improved explanatory power (R^2)by an average of 0.02% across scenarios. Scenario 1 (Likes) showed the most significant improvement, with R^2 increasing from 0.6023 to 0.6408 and reductions in RMSE (0.1118 to 0.1063) and MAE (0.0872 to 0.0842). However, the contribution of LLaVA-generated data to Saves and Comments interactions was limited, suggesting that interaction type influences the utility of textual data. The findings highlight the importance of combining structural and textual data in predicting user interactions, offering actionable insights for content creators and platform operators. Additionally, the use of SHAP and t-SNE demonstrates the potential of interpretable AI and visualization techniques in exploring nonlinear patterns in high-dimensional data. Future research should explore larger, category-specific datasets across multiple platforms and leverage advanced LMMs to further enhance prediction models.

more

초록 (요약문)

본 연구는 TikTok 숏폼 영상의 사용자 상호작용(Likes, Saves, Comments) 예측 성능을 향상시키기 위해 메타데이터와 텍스트 데이터를 통합하고, LMM(Large Multimodal Model)인 LLaVA 모델을 활용해 생성된 텍스트 데이터를 추가적으로 활용하였다. 5,680개의 TikTok 영상 데이터셋을 바탕으로, 텍스트 데이터를 BGE-M3 임베딩과 PCA를 통해 차원 축소한 후, XGBoost를 활용하여 예측 모델을 구축하였으며, SHAP과 t-SNE를 통해 데이터의 중요도와 숨겨진 패턴을 분석하였다. 분석 결과, 텍스트 데이터 통합으로 예측 모델의 설명력(R^2)이 평균 0.02% 향상되었으며, 특히 Likes 상호작용(Scenario 1)에서 가장 큰 개선 효과가 확인되었다(R^2: 0.6023 → 0.6408, RMSE: 0.1118 → 0.1063, MAE: 0.0872 → 0.0842). 반면, Saves와 Comments 상호작용에서는 LLaVA 데이터의 기여도가 제한적으로 나타나, 상호작용 유형에 따라 텍스트 데이터의 활용도가 달라질 수 있음을 시사하였다. 본 연구는 상호작용 예측에 있어 메타데이터와 텍스트 데이터를 결합한 접근법의 중요성을 강조하며, SHAP과 t-SNE를 활용한 해석 가능 AI와 데이터 시각화 기법의 가능성을 제시하였다. 나아가, 본 연구는 콘텐츠 제작자와 플랫폼 운영자에게 데이터 기반 전략 설계의 실질적 인사이트를 제공하며, 향후 연구에서는 플랫폼 간 비교, 더 정교한 LMM 활용, 비선형 데이터 패턴을 반영하는 심층 신경망 모델(DNN)의 적용을 제안한다.

more

목차

1. Introduction 7
1.1 Research Background 8
1.2 Research Purpose 11
2. Literature Review and Theoretical Background 14
2.1. Short-Form Videos and User Behavior 15
2.2. Analysis and Prediction Models Using XGBoost in Marketing 17
2.3. Analysis Using LMM in Marketing 19
3. Research Methodology 21
3.1. Data Collection 22
3.1.1. TikTok Meta Data Processing: Log Normalization 24
3.1.2. TikTok Text Data Processing: Embedding and PCA 26
3.1.3. Use of LLaVA to Generate Video Description Text 28
3.2. Machine Learning Model Development 32
3.2.1. XGBoost Model Structure 33
3.2.2. XGBoost hyperparameter Tuning 35
4. Analysis and Results 38
4.1. SHAP 40
4.2. XGBoost Prediction Model: Scenario-Specific Analysis 44
4.2.1. Scenario 1: Likes 46
4.2.2. Scenario 2: Saves 47
4.2.3. Scenario 3: Comments 47
4.2.4. Scenario 4. Total Interaction 48
4.3. t-SNE 51
5. General Discussion 57
5.1. Implications 59
5.2. Limitations and Future Research 62
6. Reference 65

more