NegMerge: Forgetting by Sign-Consensual Weight Merging
- 발행기관 서강대학교 일반대학원
- 지도교수 최준석
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000082025
- UCI I804:11029-000000082025
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Machine unlearning aims to selectively remove specific knowledge from a trained model. Existing approaches, such as task arithmetic, fine-tune the model on the forget set to create a task vector (i.e., a direction in weight space) for subtraction from the original weight. However, their effectiveness is highly sensitive to hyperparameter selection, requiring extensive validation to identify the optimal vector from many fine-tuned candidates. In this paper, we propose a novel method that utilizes all fine-tuned models trained with varying hyperparameters instead of a single selection. Specifically, we aggregate the computed task vectors by retaining only the elements with consistent shared signs. The merged task vector is then negated to induce unlearning on the original model. Evaluations on zero-shot and standard image recognition tasks across ten datasets and three backbone architectures show that our approach achieves superior unlearning performance. It outperforms state-of-the-art methods while requiring similar or fewer computational resources.
more초록 (요약문)
머신 언러닝은 학습된 모델에서 특정 지식을 선택적으로 제거하는 것을 목표로 한다. 기존의 방식인 태스크 아리스메틱은 잊고자 하는 데이터셋으로 모델을 파인튜닝한 후, 생성된 태스크 벡터(즉, 가중치 공간에서의 방향)를 원래 모델에서 빼는 방식으로 언러닝을 수행한다. 하지만 이러한 방법은 하이퍼파라미터 설정에 매우 민감하며, 수많은 파인튜닝 결과 중 최적의 벡터를 찾기 위해 많은 검증이 필요하다. 본 논문에서는 하나의 벡터를 선택하는 대신, 다양한 하이퍼파라미터로 학습된 모든 파인튜닝 모델을 활용하는 새로운 방법을 제안한다. 구체적으로, 각 태스크 벡터에서 부호가 일치하는 요소만을 남겨 이를 병합하고, 이렇게 병합된 태스크 벡터를 반전시켜 원래 모델에 적용함으로써 언러닝을 유도한다. 제안한 방법은 10개의 데이터셋과 3가지 백본 아키텍처에 걸쳐 제로샷 및 이미지 인식 테스크들에서 평가되었으며, 기존 최신 기법들보다 뛰어난 언러닝 성능을 보인다. 또한 유사하거나 더 적은 연산 자원으로 작동한다.
more목차
1 Introduction 1
2 Related Work 2
2.1 Machine Unlearning for Image Classification 2
2.2 Model Merging 3
3 Method 4
3.1 Background 4
3.2 The Proposed Method: NegMerge 6
3.3 Analyses on Computational Cost 8
3.4 Theoretical Analysis 9
4 Experiments 10
4.1 Experimental Setups 10
4.2 Experimental Results 12
4.3 Ablation Studies 18
5 Conclusion and Limitation 27

