Sparse Autoencoder
分类: 基础理论
Sparse Autoencoder (SAE)
定义
在自编码器的隐层施加稀疏约束,使其学习到稀疏的、可解释的特征表示的无监督学习方法;近年被广泛用于解析 LLM 内部表征
数学形式
其中 是稀疏隐层, 是重建, 控制稀疏度
核心要点
核心用途(可解释性方向):将 LLM 的 dense 激活分解为可解释的稀疏特征方向
Anthropic 的”Towards Monosemanticity”系列工作是 SAE 解释 LLM 的里程碑
在剪枝分析中的应用:通过比较剪枝前后 SAE 提取的特征变化,揭示剪枝如何重塑内部表征
与 PCA/SVD 的区别:SAE 学习过完备基(overcomplete basis),且施加稀疏约束
代表工作
Anthropic (2023): Towards Monosemanticity,用 SAE 解析 Claude 内部特征
How Pruning Reshapes Features: 用 SAE 分析 SparseGPT 剪枝后的特征重组