검색 상세

TIMixer : 장기 시계열 예측을 위한 경량 CNN-MLP 하이브리드 모델

TIMixer: CNN-MLP Lightweight Hybrid Model for Long Sequence Time Series Forecasting

초록

장기 시계열예측(Long Sequence Time-series Forecasting (LSTF)) 은 일반적인 시계열예측 연구 분야보다 더 긴 길이의 미래 시계열을 예측하는 태스크이다. 이는 센서 네트워크 모니터링, 교통, 날씨, 전력 소모량 예측, 금융 예측 등의 분야에서 쓰이고 있다. 최근 장기 시계열 예측에서는 Transformer 모델이 자주 쓰이고 있으며 좋은 성능을 보인다. 하지만 Transformer 모델의 단점인 모델의 큰 크기와 복잡한 계산 복잡도로 인한 느린 추론 속도는 여전히 해결해야 할 과제이다. 이를 개선하기 위해 보다 간단한 다층퍼셉트론(Multi Layer Perceptron(MLP)) 기반 모델을 이용한 연구가 존재한다. 본 논문에서는 위에서 언급된 것과 같은 Transformer 모델에서 보이는 단점을 해결하기 위해 Inception Network에서 영향을 받은 CNN-MLP 하이브리드 구조를 적용한 Time-series Inception Mixer(TIMixer) 모델을 제안하고자 한다. TIMixer 모델이 다른 모델과 차별화 된 점은 크게 다음 두 가지로 요약된다. 첫째, Transformer 모델의 Multi-Head Attention 계층을 단일 Linear 계층으로 치환하여 모델의 크기를 경량화한다. 둘째, 합성곱 계층을 사용하여 Transformer 모델이 약점을 보이는 지역적 정보에 대한 처리 능력을 강화한다. 본 논문에서 PatchTST, TSMixer 같은 SOTA 모델들과 비교했을 때 더 가벼우면서도 비슷하거나 더 나은 성능을 확인하였다. 특히 시간별 변압기 시계열 데이터 세트에서 다른 모델들 대비 큰 향상을 보였다.

more

초록

Long Sequence Time-series Forecasting (LSTF) is the task of predicting future time series of longer length than the typical time series forecasting research field. Applications include sensor network monitoring, traffic, weather, power consumption forecasting, and financial forecasting. Recently, the Transformer model has been frequently used for long-term time series forecasting and has shown good performance. However, the drawbacks of the Transformer model, namely the large size of the model and the slow inference speed due to the computational complexity, are still a challenge. To improve this, there are studies using simpler Multi Layer Perceptron (MLP) based models. In this paper, we propose the Time-series Inception Mixer (TIMixer) model, which applies a CNN-MLP hybrid structure inspired by the Inception Network, to address the shortcomings of the Transformer model as mentioned above. The differences between the TIMixer model and other models are summarized in the following two points. First, it replaces the Multi-Head Attention layer of the Transformer model with a single Linear layer to lighten the size of the model. Second, we use convolutional layers to enhance the ability to handle local information, which is a weakness of the Transformer model. Compared to SOTA models such as PatchTST and TSMixer, we show similar or better performance while being lighter. In particular, it shows significant improvement over other models on hourly transformer time series datasets.

more

목차

I. 서론 1
1. 연구 배경 1
2. 논문의 구성 4
II. 관련 연구 5
1. 시계열 예측 연구 5
1) 딥러닝 기반 시계열 예측 연구 5
2) 장기 시계열 예측 연구 7
3) 시계열 Normalization에 대한 연구 11
2. MLP-Mixer 모델 연구 13
1) MLP-Mixer에 대한 연구 13
3. Inception 구조 15
1) Inception Network에 대한 연구 15
2) Inception Transformer에 대한 연구 16
III. CNN-MLP 하이브리드 모델을 사용한 장기 시계열예측 18
1. 네트워크 구조 19
1) 패치 임베딩 19
2) CNN-MLP 하이브리드 Mixer 20
3) Head 계층 23
IV. 실험 및 결과 24
1. 실험 방법 24
1) 데이터 세트 24
2) 실험 설정 25
3) 평가방법 27
2. 실험 결과 29
1) 정확도 비교 29
2) 속도 및 크기 비교 34
V. 결론 및 향후 과제 40
참고문헌 42

more