검색 상세

시계열 데이터 간 유사성 분석과 유사도 가중치 학습을 통한 전이학습 성능 향상

Improvement of transfer learning performance through similarity analysis between time series data and learning of similarity weights

초록/요약

4차 산업혁명이 대두된 이래, 심층 신경망(Deep neural networks)을 학습하기 위해 데이터의 필요성은 다각도에서 주목받고 있다. 심층 신경망은 은닉층(Hidden Layer)을 많이 쌓아 모델을 구성하는 매개변수(Parameter)를 늘려 성능을 보여준다. 수백만 개에 이를 수도 있는 매개변수를 학습시키기 위해서는 매우 많은 데이터가 필요하다. 기술의 발전과 함께 사람들이 만드는 데이터의 양도 증가하고 있지만 양질의 데이터를 다량 확보하는데 비용 등이 큰 걸림돌이 된다. 특정 Task를 해결하고자 할 때 학습 데이터의 양이 문제가 되는 경우가 생기는 것이다. 그래서 일반적으로 학습 데이터의 양이 부족하다고 여겨질 땐 데이터 증대(Data Augmentation)를 사용한다. 하지만 데이터에 최적화된 데이터 증대 방법을 정하는 것에는 휴리스틱한 부분이 생기기 마련이다. 또한 시계열 데이터(Time Series Data)의 경우에는 데이터 증대를 적용하는 과정에서 데이터의 특성을 일반화시키는 문제가 생기기도 한다. 그렇기에 시계열 데이터의 분류에 있어서 전이 학습(Transfer Learning)을 주로 사용한다. 학습 데이터의 절대량이 부족할 때 다른 분야의 풍부한 데이터를 바탕으로 한 좋은 성능의 모델의 초기 계층을 사용하여 모델을 구축하는 것이다. 머신러닝의 많은 모델들은 적용하려는 데이터가 학습할 때의 데이터와 같은 분포일 때 가장 효율적이다. 그러므로 시계열 데이터 분류 성능 향상을 위해 전이학습 시 미리 학습되는 다른 분야의 데이터와 적용하고자 하는 분야의 데이터의 상관관계가 높아야한다. 본 논문에서는 시계열 데이터의 분류 성능 향상을 위해 데이터 간 유사성을 고려한 전이학습 알고리즘을 적용한 방법을 제안한다. 기존의 데이터 유사도의 신뢰성과 분류 성능을 높이기 위해 세가지의 데이터 유사도 측정법을 부가적으로 적용하였다. 각 데이터 유사도 측정법에 적합하게 시계열 데이터의 전처리를 통하여 조정을 하였고 측정된 데이터 유사도들에 대한 가중치 학습을 위해 새로운 모델 구조를 제시하였다. 제시한 방법의 효과를 검증하기 위하여 기존 선행연구를 이용한 시계열 데이터 분류 방법과 데이터 유사성을 고려하지 않은 전이학습과의 비교를 통해 성능을 검증하였다. 성능 검증을 통하여 데이터 유사도들을 고려하여 가중치 학습을 한 결과가 기존 연구의 결과에 비해 성능 향상이 이루어졌음을 확인하였다.

more

초록/요약

Since the emergence of the 4th Industrial Revolution, the need for data to learn Deep Neural Networks has attracted attention from many aspects. The deep neural network shows performance by increasing the parameters constituting the model by stacking a lot of hidden layers. It takes a lot of data to learn parameters, which can reach millions. With the advancement of technology, the amount of data that people create is increasing, but the cost of securing a large amount of high-quality data is a big obstacle. When trying to solve a specific task, there are cases where the amount of training data becomes a problem. So, in general, data augmentation is used when the amount of training data is considered insufficient. However, there is a heuristic part in determining the augmentation method that is optimized for data. Also, in the case of time series data, there is a problem of generalizing the characteristics of the data in the process of applying augmentation. Therefore, transfer learning is used in classifying time series data. When the absolute amount of training data is insufficient, the model is built using an initial layer of a good performing model based on a wealth of data from other fields. Many models of machine learning are most efficient when the data to be applied has the same distribution as the data at the time of training. Therefore, in order to improve the performance of classifying time series data, the correlation between data from other fields that are previously learned during transfer learning and data from the field to be applied must be high. In this paper, to improve the classification performance of time series data, we propose a transfer learning algorithm that considers the similarity between data. To increase the reliability and classification performance of the existing data similarity, three data similarity measurement methods were additionally applied. Adjustments were made through preprocessing of time series data suitable for each data similarity measurement method, and a new model structure was proposed to learn weights for measured data similarities. In order to verify the effectiveness of the proposed method, the performance was verified by comparing the time-series data classification method using previous studies with transfer learning that did not consider data similarity. Through the performance verification, it was confirmed that the result of weight learning in consideration of the data similarity has improved performance compared to the result of the previous study.

more