학습 데이터 부족 환경에서 데이터 중요도가 반영된 유사 데이터 활용을 통한 학습 성능 개선 방안 연구
Improving learning performance for data-scarce tasks using weighted augmentation of similar data
- 주제어 (키워드) 전이학습 , 데이터부족 , 분류모델 , transfer learning , cold start , classification
- 발행기관 서강대학교 정보통신대학원
- 지도교수 소정민
- 발행년도 2022
- 학위수여년월 2022. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000067113
- UCI I804:11029-000000067113
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
학습 데이터 부족으로 인한 모델 성능 저하 문제는 전 산업 영역에서 맞닥뜨리는 흔한 현상이다. 예를 들어, 서비스 산업에서 특정 서비스 이용 여부를 예측하려 할 때 해당 서비스를 경험한 고객 자체가 적어 학습에 어려움을 겪는 경우가 잦다. 이처럼 불균형한 소량의 데이터만으로 모델을 학습할 경우 과적합 및 낮은 정확도 등 성능 저하의 문제가 발생할 수 있다. 본 논문에서는 데이터가 부족한 환경에서 성능을 개선하기 위해 유사 데이터를 학습 데이터로 추가하고 원천 데이터의 중요도를 학습 과정에 반영하는 방안을 제안한다. 데이터 중요도란 각 원천 데이터가 타겟 데이터를 예측하는데 기여하는 정도를 의미한다. 각 원천 데이터로 학습한 모델을 실제 타겟 데이터로 테스트했을 때의 성능을 통해 사후적으로 확인할 수 있다. 데이터 중요도를 학습 과정에 반영하는 방식으로는 앙상블 기법과 샘플링 가중치를 조정하는 방식을 연구했다. 또한 실제 카드 거래 내역 데이터를 활용한 실험을 통해 데이터의 중요도를 앙상블 기법으로 반영 시 AUC, LIFT 등 주요 모델 성능이 개선된다는 것을 확인하였다.
more