PiSSA

分类: 量化与低秩

PiSSA

定义

PiSSA 是一种参数高效微调方法,通过 SVD 分解预训练权重矩阵,用主成分(最大奇异值对应的方向)初始化低秩适配器,冻结残差部分,从而在保持 LoRA 相同参数量的前提下显著加速收敛并提升微调效果

数学形式

W=UΣVU[:r]Σ[:r]V[:r]+WresW = U \Sigma V^\top \approx U_{[:r]} \Sigma_{[:r]} V_{[:r]}^\top + W_{\text{res}}

可训练部分 A=U[:r]Σ[:r]1/2A = U_{[:r]} \Sigma_{[:r]}^{1/2}, B=Σ[:r]1/2V[:r]B = \Sigma_{[:r]}^{1/2} V_{[:r]}^\top

冻结部分 Wres=WABW_{\text{res}} = W - AB

核心要点

与 LoRA 的关键区别:LoRA 用随机/零初始化适配器,PiSSA 用 SVD 主成分初始化

主成分包含了预训练权重中最重要的信息,微调这部分更高效

数学上与 LoRA 等价(同样的前向计算),但初始化策略不同导致收敛更快

适用于 LLM 微调场景,可与量化技术结合(QPiSSA)

代表工作

PiSSA (2024): 原始论文,提出基于 SVD 主成分的 LoRA 初始化方案

LoRA: 低秩适配器的基础框架

相关概念

LoRA

DoRA