검색 상세

학습 데이터 부족 환경에서 데이터 중요도가 반영된 유사 데이터 활용을 통한 학습 성능 개선 방안 연구

Improving learning performance for data-scarce tasks using weighted augmentation of similar data

초록

학습 데이터 부족으로 인한 모델 성능 저하 문제는 전 산업 영역에서 맞닥뜨리는 흔한 현상이다. 예를 들어, 서비스 산업에서 특정 서비스 이용 여부를 예측하려 할 때 해당 서비스를 경험한 고객 자체가 적어 학습에 어려움을 겪는 경우가 잦다. 이처럼 불균형한 소량의 데이터만으로 모델을 학습할 경우 과적합 및 낮은 정확도 등 성능 저하의 문제가 발생할 수 있다. 본 논문에서는 데이터가 부족한 환경에서 성능을 개선하기 위해 유사 데이터를 학습 데이터로 추가하고 원천 데이터의 중요도를 학습 과정에 반영하는 방안을 제안한다. 데이터 중요도란 각 원천 데이터가 타겟 데이터를 예측하는데 기여하는 정도를 의미한다. 각 원천 데이터로 학습한 모델을 실제 타겟 데이터로 테스트했을 때의 성능을 통해 사후적으로 확인할 수 있다. 데이터 중요도를 학습 과정에 반영하는 방식으로는 앙상블 기법과 샘플링 가중치를 조정하는 방식을 연구했다. 또한 실제 카드 거래 내역 데이터를 활용한 실험을 통해 데이터의 중요도를 앙상블 기법으로 반영 시 AUC, LIFT 등 주요 모델 성능이 개선된다는 것을 확인하였다.

more