Normalizing Flow의 모델 압축을 위한 분포기반 지식 증류 기법
Distilling the distribution knowledge in a Normalizing Flow
- 주제어 (키워드) 생성 모델 , 지식증류 , 이상치 탐지 , 초해상화 , generative model , knowledge distillation , anomaly detection , super resolution
- 발행기관 서강대학교 일반대학원
- 지도교수 김경환
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000070029
- UCI I804:11029-000000070029
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Knowledge distillation is actively studied for model compression to solve the disadvantages of increased memory size and slow inference speed for deep learning models. Many researchers have proposed feature-based knowledge distillation in various ways among them. In this paper, we use the method of transferring the knowledge of the middle layer rather than the method of transferring only the knowledge of the last layer, which is the method used in the previous Normalizing Flow. We learn more efficiently by using this middle layer of knowledge. In addition to knowledge transfer, distillation information differs depending on the distillation position, so we propose a method of generally determining the teacher model's distillation position. The knowledge transfer uses the Jensen-Shannon divergence. As a teacher model of the proposed method, CS-Flow is used in the anomaly detection domain, and SRFlow-DA is used in the super-resolution domain. It was confirmed that the proposed method achieved a similar level of performance to the teacher model and improved the inference speed by about 2 ~ 3 times. We show the effectiveness of the proposed method through a learning graph with knowledge transfer, performance change due to distillation position, and ablation study of knowledge transfer.
more초록 (요약문)
컴퓨터 비전에서 딥러닝 모델의 복잡도 증가에 따라 구현에 필요한 메모리의 크기가 커지고 추론 속도가 느려졌다. 이러한 문제를 해결하기 위해 모델 압축으로서 지식 증류 연구가 활발히 진행되고 있다. 그 중 특징을 중심으로 지식을 전이하는 특징기반 지식 증류는 효과적인 방법이며 다양한 방식으로 제안되고 있다. 생성 모델의 한 종류인 Normalizing Flow는 최근 주목을 많이 받는 방식이지만 모델의 크기가 크고 추론 속도가 느린 단점이 있는 모델이다. 이 문제를 해결하기 위해 지식 증류를 적용한 normalizing flow 방식은 마지막 출력값을 이용하여 지식을 전이하였다. 하지만 마지막 출력값을 이용하는 지식 증류 방식은 low-level의 특징을 받지 못하는 단점이 있다. 본 논문에서는 Normalizing Flow에 지식증류를 적용한 기존 방식의 단점을 보완하기 위해 low-level의 feature지식도 받기 위해 중간층의 지식도 전이하는 방식을 제안하며 추가적인 모듈이 필요없는 분포기반 지식 증류방식을 이용한다. Normalizing Flow는 데이터의 복잡한 분포를 간단한 분포로 바뀌어 나가는 모델이다. 따라서 지식을 전이하기 위해 두 분포를 비교하는 Jensen-Shannon divergence를 도입한다. 또한, 지식 전이 외에도 증류 위치에 따라 전이되는 지식이 다르므로 일반적으로 teacher 모델의 증류 위치를 정하는 방법을 제안한다. 제안하는 방식의 teacher 모델로 이상탐지 영역에서는 CS-Flow를 이용하고, 초해상도 영역에서는 SRFlow-DA를 선택한다. 각 모델의 인기 있는 벤치마크 데이터에 대한 일련의 실험에서 제안하는 방법이 teacher 모델과 유사한 수준의 성능을 달성하고 추론 속도가 약 2~3배 향상되었음을 확인하였다. 또한 학습 그래프와 증류 위치에 따른 성능변화, 절제연구를 통해 제안한 방법에 대한 효용성을 입증한다.
more