검색 상세

Self-supervised Knowledge Distillation using Dynamic Memory Bank for Image Copy Detection

근복사 이미지 검출을 위한 다이나믹 메모리 뱅크 기반 자기 지도 지식 증류 방법

초록 (요약문)

In the growing landscape of multimedia-sharing platforms, content moderation has become essential to block or limit the spread of harmful images. Previous works have shown remarkable performance with convolution-based architecture with self-supervised learning, but the network size is not applicable to utilize in the real-world setting. Also, in a self-supervised setting, distilling the final logits from the teacher network is not applicable. In this paper, we introduce a knowledge distillation method that aims to compress the architecture in image copy detection with a self-supervised setting. We adapt similarity-based knowledge distillation to the image copy detection task by changing the training objective and adopting contrastive learning. We design a simple yet dynamic memory bank that not only contains its negative pairs but also positive pairs from the previous epoch. Our method employs differential entropy regularization to avoid dimension collapse and differently augments the input images of teacher and student networks. We conduct extensive experiments to demonstrate the effectiveness of our proposed method, achieving performance similar to the large-size network in image copy detection tasks. We implement the previous approach to compare with ours and evaluate each lightweight architecture. For the DISC2021 benchmark, our approach achieves a notable improvement on a model 4.1 times lighter network. Furthermore, our experiments on Copydays outperform the previous approaches.

more

초록 (요약문)

멀티미디어 공유 플랫폼의 성장으로 인해 유해한 이미지의 전파를 막거나 제한하기 위한 콘텐츠 조정은 필수적이다. 이전 연구들은 자기 지도 학습 기반의 합성곱 신경망을 사용하여 높은 성능을 달성하였지만, 큰 네트워크 크기는 실제 환경에서 사용하기에 적합하지 않다. 또한, 지도 학습과 달리, 자기 지도 학습에서는 티처 네트워크의 최종 로짓을 전이하는 것이 부적합하다. 본 논문에서는, 자기 지도 학습 세팅에서 근복사 이미지 검출에 대한 아키텍처를 압축하기 위한 지식 증류 방법을 제안한다. 우리는 유사성 기반 지식 증류를 근복사 이미지 검출에 적용하기 위해 학습 목적을 변경하고 대조 학습을 이용한다. 우리는 Dynamic Memory Bank 를 설계하여, negative pair 뿐만 아니라 이전 에폭의 특징벡터들을 캐싱하여 positive pair를 포함한다. 또한, 차원붕괴 문제를 해결하기 위해 엔트로피 정규화 기법, 차원 투영 방법, 티쳐 및 스튜던트에 각기 다른 데이터 증강 기법을 적용한다. 실험을 통해 우리의 방법이 기존 근복사 이미지 검출의 큰 네트워크와 유사한 성능을 보인다는 것을 입증하며, DISC2021 벤치마크에서 각 경량화 아키텍처에 대해 평가한 결과, 우리의 방법은 4.1 배 더 가벼운 네트워크에서 높은 성능 향상을 보이며 Copydays에 대해 기존보다 높은 성능을 보인다.

more