검색 상세

NegMerge: Forgetting by Sign-Consensual Weight Merging

초록 (요약문)

Machine unlearning aims to selectively remove specific knowledge from a trained model. Existing approaches, such as task arithmetic, fine-tune the model on the forget set to create a task vector (i.e., a direction in weight space) for subtraction from the original weight. However, their effectiveness is highly sensitive to hyperparameter selection, requiring extensive validation to identify the optimal vector from many fine-tuned candidates. In this paper, we propose a novel method that utilizes all fine-tuned models trained with varying hyperparameters instead of a single selection. Specifically, we aggregate the computed task vectors by retaining only the elements with consistent shared signs. The merged task vector is then negated to induce unlearning on the original model. Evaluations on zero-shot and standard image recognition tasks across ten datasets and three backbone architectures show that our approach achieves superior unlearning performance. It outperforms state-of-the-art methods while requiring similar or fewer computational resources.

more

초록 (요약문)

머신 언러닝은 학습된 모델에서 특정 지식을 선택적으로 제거하는 것을 목표로 한다. 기존의 방식인 태스크 아리스메틱은 잊고자 하는 데이터셋으로 모델을 파인튜닝한 후, 생성된 태스크 벡터(즉, 가중치 공간에서의 방향)를 원래 모델에서 빼는 방식으로 언러닝을 수행한다. 하지만 이러한 방법은 하이퍼파라미터 설정에 매우 민감하며, 수많은 파인튜닝 결과 중 최적의 벡터를 찾기 위해 많은 검증이 필요하다. 본 논문에서는 하나의 벡터를 선택하는 대신, 다양한 하이퍼파라미터로 학습된 모든 파인튜닝 모델을 활용하는 새로운 방법을 제안한다. 구체적으로, 각 태스크 벡터에서 부호가 일치하는 요소만을 남겨 이를 병합하고, 이렇게 병합된 태스크 벡터를 반전시켜 원래 모델에 적용함으로써 언러닝을 유도한다. 제안한 방법은 10개의 데이터셋과 3가지 백본 아키텍처에 걸쳐 제로샷 및 이미지 인식 테스크들에서 평가되었으며, 기존 최신 기법들보다 뛰어난 언러닝 성능을 보인다. 또한 유사하거나 더 적은 연산 자원으로 작동한다.

more

목차

1 Introduction 1
2 Related Work 2
2.1 Machine Unlearning for Image Classification 2
2.2 Model Merging 3
3 Method 4
3.1 Background 4
3.2 The Proposed Method: NegMerge 6
3.3 Analyses on Computational Cost 8
3.4 Theoretical Analysis 9
4 Experiments 10
4.1 Experimental Setups 10
4.2 Experimental Results 12
4.3 Ablation Studies 18
5 Conclusion and Limitation 27

more