CS224N / 学习笔记

SparseGPT

分类: 剪枝与稀疏化

SparseGPT

定义

一种针对 GPT 规模语言模型的一次性（one-shot）非结构化剪枝方法，基于 Optimal Brain Compression 框架，可在单次前向传播中将 LLM 剪枝到 50-60% 稀疏度而几乎不掉点

核心要点

基于 Hessian 逆的近似来估计权重重要性
逐列处理权重矩阵，支持大模型的高效剪枝
不需要重训练，一次性完成剪枝
Bielik-Minitron 的对比方法之一

代表工作

（待补充）

相关概念