Mechanistic Interpretability
分类: 基础理论
Mechanistic Interpretability
定义
通过逆向工程神经网络的内部计算机制来理解模型行为的研究方向,关注模型”如何”做出决策而非仅”做了什么”
核心要点
将 Transformer 层分解为具有明确功能角色的组件:
- QK 回路(): 决定注意力模式,即”关注哪些 token”
- OV 回路(): 决定信息传递,即”传递什么信息”
残差流(Residual Stream)作为信息的主要通道,各层通过读写残差流进行通信
帮助识别特定功能(如 induction heads、factual recall circuits)的具体实现位置
在量化/压缩中的应用:不同功能角色的组件对压缩的敏感度不同
代表工作
NSDS: 首次将机制可解释性的 Detector/Writer 分解应用于量化敏感度估计
Elhage et al. (2021): “A Mathematical Framework for Transformer Circuits”
Olsson et al. (2022): “In-context Learning and Induction Heads”