검색 상세

머신러닝과 LLM 멀티 에이전트 기반 AWS CloudTrail 로그 이상 징후 탐지 프레임워크

A Machine Learning and LLM Multi-Agent based Framework for AWS CloudTrail Log Anomaly Detection

초록(요약문)

본 연구는 AWS CloudTrail 로그 환경에서 "정상 API의 악의적 남용(Abuse of Legitimate APIs)"을 효과적으로 탐지하고 대응하기 위한 전처리 -> 머신러닝 모델기반 1차 탐지-> LLM 기반 2차 분석의 3단계 통합 프레임워크를 제안한다. 기존 연구인 HRL-AD(Hybrid Reinforcement Learning-Based Anomaly Detection)가 시도한 지도학습, 비지도학습, 강화학습 기반의 복잡한 하이브리드 구조가 갖는 연산 비효율성을 개선하기 위해, 본 연구는 도메인 지식 기반의 명시적 특징 공학(Explicit Feature Engineering)을 핵심으로 하는 지도학습 접근법을 채택하였다. 또한 이를 위해 시간, 빈도, 희소성(Scarcity) 기반의 파생 변수를 생성하여 로그의 맥락 정보를 구조화하였으며, AutoML 기반의 AutoGluon 프레임워크를 활용하여 LightGBM(Light Gradient Boosting Machine), XGBoost(eXtreme Gradient Boosting), CatBoost(Categorical Boosting) 등 다양한 모델에 대한 대규모 성능 비교를 수행하였다. 학습 데이터 1,199,796건과 테스트 데이터 299,950건(정상 클래스 약 74.9%)을 대상으로 한 실험 결과, 최고 성능 모델인 XGBoost_BAG_L4/T1 이 ROC-AUC 0.986, F1-Score 92%를 기록하였다. 전체 실험에서 정확도 95.7%, 정밀도 85.8%, 재현율 99.1%, 특이도 94.5%를 달성하여 효율적인 구조로도 우수한 이상 징후 탐지 성능을 입증하였다. 특히 본 연구가 제안한 파이프라인은 "머신러닝 모델과 LLM 에이전트"의 2단계 구조를 갖추어, 1 차 탐지에서 가능한 많은 의심 사례를 확보하고 2차 LLM 기반 검증을 통해 오탐(False Positive)을 효과적으로 제거하는 균형 전략을 구현하였다. 나아가 본 연구는 단순히 탐지 결과를 알림(Alert) 형태로 전달하는 수준을 넘어, LLM 기반 멀티 에이전트(Multi-Agent) 시스템을 결합하여 탐지된 이상 징후를 심층 분석하고 대응 방안을 자동으로 제시하는 설명 가능한 보안(Explainable Security) 구조를 구현하였다. 결론적으로 본 연구는 탐지(Detection)부터 분석(Analysis), 판단 (Decision), 대응(Response)까지 이어지는 End-to-End 자동화 프로세스를 지원함으로써 실제 클라우드 운영 환경에 즉시 적용 가능한 실무 지향적 이상 탐지 프레임워크를 제시한다. 또한 연구 재현성 및 실무 활용도를 높이기 위해, 본 연구에 사용된 주요 소스코드 및 데이터를 공개함으로써 학술 및 산업적 기여도를 증대하였다.

more

초록(요약문)

This study proposes a three-stage integrated framework to detect and respond to the malicious abuse of legitimate APIs in AWS CloudTrail environments. The framework consists of preprocessing, lightweight model-based primary detection, and LLM-driven secondary analysis. To address the computational inefficiency of complex hybrid architectures, such as hybrid reinforcement learning-based anomaly detection, we adopt a supervised learning approach based on domain-driven explicit feature engineering. Contextual information is structured using temporal, frequency-based, and scarcity-derived features, and extensive performance evaluations are conducted using the AutoML-based AutoGluon framework with LightGBM, XGBoost, and CatBoost models. Experiments on a large-scale dataset containing 1,199,796 training logs and 299,950 test logs demonstrate that the optimal model, XGBoost_BAG_L4/T1, achieves an ROC-AUC of 0.986 and an F1-score of 92%. The proposed framework employs a synergistic two-stage detection strategy: a high-recall lightweight model for initial screening and a high-precision LLM agent for context-aware false positive reduction. Furthermore, the LLM-based multi-agent system provides deep analysis and automated response recommendations, enabling explainable security. The results indicate that the proposed framework offers an efficient, accurate, and practical end-to-end solution for real-world cloud security operations.

more

목차

1장 서론 8
2장 관련 연구 10
2.1 로그 기반 이상 행동 탐지의 초기 접근 방법 10
2.2 머신러닝 기반 접근 방법 10
2.3 하이브리드 및 강화학습 기반 모델 12
2.4 LLM 기반 이상탐지 12
2.5 본 연구의 차별성 14
3장 설계 및 구현 16
3.1 데이터셋 18
3.2 데이터 전처리 19
3.3 특징 공학(Feature Engineering) 22
3.3.1 시간 기반 파생 변수 (Temporal Features) 22
3.3.2 빈도 기반 행동 특성(Frequency-Based Behavioral Features) 23
3.3.3 범주형 변수 인코딩 (Categorical Encodings) 24
3.3.4 이상 탐지 타겟 변수 정의 (Anomaly Target Definition) 24
3.3.5 비교 연구의 근거 (Comparative Rationale) 25
3.4 머신러닝 모델 구성 26
3.5 LLM 기반 설명 가능한 멀티 에이전트 시스템 27
3.5.1 멀티 에이전트 파이프라인 구조 27
3.5.2 에이전트별 역할 29
3.5.3 주요 특징 30
3.6 학습 환경(Training Environment) 30
3.7 성능 평가 지표 및 임계값 최적화 32
3.7.1 평가 지표 선정 32
3.7.2 성능 지표 계산 32
4장 실험 결과 33
4.1 성능 평가 지표 (Performance Evaluation Metrics) 33
4.2 실험 결과 34
4.2.1 모델 성능 분석 34
4.2.2 최적 모델 선정 및 세부 성능 평가 35
4.2.3 리더보드 분석 및 앙상블 효과 검증 37
4.2.4 최종 모델 분류 성능 분석 39
4.2.5 멀티 에이전트 시스템 구현 및 검증 41
4.2.6 1차 ML 결과와 1차 ML+2차 멀티 에이전트 결과 비교 45
4.2.7 2차 멀티 에이전트 LLM 결과 검증 46
4.2.8 기존 연구(HRL-AD)와의 효율성 및 실무 적합성 비교 49
5장 결론 및 향후연구 52
5.1 연구 요약 52
5.2 연구의 한계점 53
5.3 향후 연구 54
참고문헌 55

more