Sparse Autoencoder

分类: 基础理论

Sparse Autoencoder (SAE)

在自编码器的隐层施加稀疏约束，使其学习到稀疏的、可解释的特征表示的无监督学习方法；近年被广泛用于解析 LLM 内部表征

$\mathcal{L} = \|x - \hat{x}\|^2 + \lambda \sum_j |h_j|$ 其中 $h = \text{ReLU}(W_e x + b_e)$ 是稀疏隐层， $\hat{x} = W_d h + b_d$ 是重建， $\lambda$ 控制稀疏度

核心用途（可解释性方向）：将 LLM 的 dense 激活分解为可解释的稀疏特征方向

Anthropic 的”Towards Monosemanticity”系列工作是 SAE 解释 LLM 的里程碑

在剪枝分析中的应用：通过比较剪枝前后 SAE 提取的特征变化，揭示剪枝如何重塑内部表征

与 PCA/SVD 的区别：SAE 学习过完备基（overcomplete basis），且施加稀疏约束

Anthropic (2023): Towards Monosemanticity，用 SAE 解析 Claude 内部特征

How Pruning Reshapes Features: 用 SAE 分析 SparseGPT 剪枝后的特征重组