Improving Fisher Information Estimation and Efficiency for LoRA-based LLM Unlearning
- 주제(키워드) Natural Language Processing , Large Language Model , Machine Unlearning , Fisher Information
- 발행기관 서강대학교 일반대학원
- 지도교수 최준석
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제URI http://www.dcollection.net/handler/sogang/000000082788
- UCI I804:11029-000000082788
- 본문언어 영어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
LoRA 기반 대형언어모델 언러닝을 위한 피셔 정보량 추정 및 효율성 향상 LLM 은 다양한 작업에서 우수한 성능을 보여왔지만, 의도치 않게 민감한 정보를 포함한 출력을 생성하는 문제에 직면하고 있다. 이러한 문제를 해결하기 위한 가장 단순한 접근은 문제 데이터를 제외하고 모델을 재학습하는 것이지만, 이 방법은 막대한 계산 비용이 발생한다. 이를 극복하기 위해 머신 언러닝이라는 새로운 접근이 등장하였다. 최근에는 FILA 가 LoRA 어댑터를 통합한 매개변수 효율적인 언러닝 방법으로 제안되었다. 구체적으로, FILA 는 피셔 정보량을 계산하여 forget set 과 관련된 매개변수를 식별하고, 해당 매개변수를 LoRA 어댑터에 할당하여 업데이트한다. 그러나 FILA 는 여전히 전체 모델 매개변수에 접근해야 하며, 피셔 정보량이 전제하고 있는 기본 가정들을 충분히 고려하지 않아 중요도 추정의 부정확성이 존재한다. 이러한 한계를 해결하기 위해 본 연구에서는 VILA 라는 새로운 언러닝 프레임워크를 제안한다. VILA 는 FILA 에서 간과된 가정을 명시적으로 고려함으로써 forget set 에 대한 매개변수 식별의 정확도를 향상시킨다. 또한, VILA 는 전체 모델에 접근하지 않고도 매개변수를 식별할 수 있도록 하여 계산 비용을 크게 절감하고 효율성을 향상한다. 제안된 방법은 FILA 대비 최대 100 배 높은 메모리 효율성과 40 배 빠른 학습 속도를 달성하였으며, TOFU, WMDP, MUSE Books 벤치마크에서 우수한 성능을 기록하였다.
more초록(요약문)
LLMs have demonstrated remarkable performance across various tasks but face challenges related to unintentionally generating outputs containing sensitive information. A straightforward aproach to address this issue is to retrain the model after excluding the problematic data. However, this approach incurs prohibitively high computational costs. To overcome this limitation, machine unlearning has emerged as a promising solution that can effectively remove sensitive information without the need to retrain the model from scratch. Recently, FILA has been proposed as a parameter efficient unlearning method by integrating LoRA adapters. Specifically, it calculates the Fisher information to identify parameters associated with the forget set and assigns them to LoRA adapters for updates. Despite its innovative approach, FILA still requires access to all model parameters and does not adequately account for fundamental assumptions underlying Fisher information, leading to inaccuracies in importance estimation. To address these limitations, we propose VILA, a novel unlearning framework that explicitly considers the assumptions overlooked in FILA, thereby enhancing the accuracy of parameter identification for the forget set. Moreover, VILA significantly reduces computational costs by enabling parameter identification without accessing the entire model. Our method achieves up to 100× higher parameter efficiency and 40× faster training speed compared to FILA, and sets new state-of-the-art performance on benchmarks including TOFU, WMDP, and MUSE Books.
more목차
I. Introduction 1
II. Related Work 3
III. Preliminary 5
A. Problem Definition 5
B. FILA: Fisher-Initialization of LoRA Adapters 5
IV. VILA: The Proposed Method 8
A. Corrected Parameter Importance Estimation 8
B. Improving Efficiency via LoRA Approximation 9
V. Experiments 13
A. Benchmarks and Compared Methods 13
B. Implementation details 13
C. Comparison with FILA 15
D. Efficiency Analysis 18
E. Ablation Study on FI Correction and LoRA Approximation 19
F. Qualitative Results 20
VI. Conclusion 22
References 23

