검색 상세

지식 증류 기법을 활용한 BERT 분석모델 경량화

Lightening BERT Model by A Knowledge Distillation Technique,

장호섭 (서강대학교 정보통신대학원)

원문보기

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 구명완
  • 발행년도 2021
  • 학위수여년월 2021. 2
  • 학위명 석사
  • 학과 및 전공 정보통신대학원 데이터사이언스
  • UCI I804:11029-000000065866
  • 본문언어 한국어
  • 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약moremore
최근, 대용량 데이터를 기반으로 학습된 Pre-trained 모델들이 자연어처리에서 높은 성능을 보여 기업, 학교, 연구 기관에서 BERT, GPT 등 최신 pre-trained 모델들을 실제 서비스에 도입하기 시작했다. 하지만, 점점 사이즈가 커지는 최신 모델들과 비정형 데이터는 실제 운영하는데 높은 비용, 학습/추론 성능 이슈 등 실용적인 문제점이 나오기 시작했다. 이를 개선하기 위해서, 모델의 크기를 줄이면서 최대한 성능을 보존하는 모델 압축 방법론들이 나타나기 시작했다. 이번 논문에서는, 기존 BERT 모델의 가중치들을 ...
최근, 대용량 데이터를 기반으로 학습된 Pre-trained 모델들이 자연어처리에서 높은 성능을 보여 기업, 학교, 연구 기관에서 BERT, GPT 등 최신 pre-trained 모델들을 실제 서비스에 도입하기 시작했다. 하지만, 점점 사이즈가 커지는 최신 모델들과 비정형 데이터는 실제 운영하는데 높은 비용, 학습/추론 성능 이슈 등 실용적인 문제점이 나오기 시작했다. 이를 개선하기 위해서, 모델의 크기를 줄이면서 최대한 성능을 보존하는 모델 압축 방법론들이 나타나기 시작했다. 이번 논문에서는, 기존 BERT 모델의 가중치들을 효율적으로 새로운 모델에 전이할 수 있는 모델 압축 기법인 지식 증류 기법을 한 모델을 개발한다. 지식 증류 기법을 적용한 BERT 모델은 기존 BERT 모델과 비교해 모델의 사이즈가 5-10배 작아졌다. 실험 결과, 기존 BERT 모델의 정확도는 96%, 압축된 모델은 92%의 긍부정 분류 정확도를 보였지만 성능 측면으로는 BERT는 36분 그리고 압축된 BERT 모델은 5분 30초로 7배 빠른 성능을 보여주는 것을 확인했다. 정확도와 성능 trade-off 관계를 고려하면 전체적으로는 지식 증류 기법이 적용된 BERT 모델이 기존 BERT 모델들과 비교 시, 기업 등과 같이 하드웨어, 성능 등 실용적인 측면을 고려하는 곳에서는 더욱 적합한 모델으로 판단이 된다.
초록/요약moremore
As pre-trained models based on large scale of corpus show good performance in natural language processing, many corporates, research institutes have tried to commercialize pre-trained modes into real practice. However, large size of those models are going to yield heavy operation cost, long training...
As pre-trained models based on large scale of corpus show good performance in natural language processing, many corporates, research institutes have tried to commercialize pre-trained modes into real practice. However, large size of those models are going to yield heavy operation cost, long training/inference time for efficient practical usage. To solve these practical problems, various model compression techniques have been introduced to reduce the size of BERT model with retaining the language model performance. This paper shows a lightening BERT model by knowledge distillation technique which is a kind of model compression technique for transferring original model parameters into lightening model parameters efficiently. The compression result shows that the size of distilled BERT model is smaller than original BERT model by 5-10 times. The accuracy result for classification shows that BERT model yields 96% and that distilled BERT model results in 92%. In the view of performance, it takes 36 minutes of prediction with BERT classification, yet with distilled BERT, it takes 5 minutes and 30 seconds. Considering trade-off between accuracy and performance, distilled BERT model can be relatively efficient for practical usage in corporates