Mechanistic Interpretability

分类: 基础理论

定义

通过逆向工程神经网络的内部计算机制来理解模型行为的研究方向，关注模型”如何”做出决策而非仅”做了什么”

将 Transformer 层分解为具有明确功能角色的组件：

残差流（Residual Stream）作为信息的主要通道，各层通过读写残差流进行通信

帮助识别特定功能（如 induction heads、factual recall circuits）的具体实现位置

在量化/压缩中的应用：不同功能角色的组件对压缩的敏感度不同

NSDS: 首次将机制可解释性的 Detector/Writer 分解应用于量化敏感度估计

Elhage et al. (2021): “A Mathematical Framework for Transformer Circuits”

Olsson et al. (2022): “In-context Learning and Induction Heads”