Sparse Autoencoder

分类: 基础理论

Sparse Autoencoder (SAE)

定义

在自编码器的隐层施加稀疏约束,使其学习到稀疏的、可解释的特征表示的无监督学习方法;近年被广泛用于解析 LLM 内部表征

数学形式

L=xx^2+λjhj\mathcal{L} = \|x - \hat{x}\|^2 + \lambda \sum_j |h_j| 其中 h=ReLU(Wex+be)h = \text{ReLU}(W_e x + b_e) 是稀疏隐层,x^=Wdh+bd\hat{x} = W_d h + b_d 是重建,λ\lambda 控制稀疏度

核心要点

核心用途(可解释性方向):将 LLM 的 dense 激活分解为可解释的稀疏特征方向

Anthropic 的”Towards Monosemanticity”系列工作是 SAE 解释 LLM 的里程碑

在剪枝分析中的应用:通过比较剪枝前后 SAE 提取的特征变化,揭示剪枝如何重塑内部表征

与 PCA/SVD 的区别:SAE 学习过完备基(overcomplete basis),且施加稀疏约束

代表工作

Anthropic (2023): Towards Monosemanticity,用 SAE 解析 Claude 内部特征

How Pruning Reshapes Features: 用 SAE 分析 SparseGPT 剪枝后的特征重组

相关概念

Effective Rank

SparseGPT

低秩分解