Mechanistic Interpretability

分类: 基础理论

Mechanistic Interpretability

定义

通过逆向工程神经网络的内部计算机制来理解模型行为的研究方向,关注模型”如何”做出决策而非仅”做了什么”

核心要点

将 Transformer 层分解为具有明确功能角色的组件:

  • QK 回路WQK=WQWKW_{QK} = W_Q W_K^\top): 决定注意力模式,即”关注哪些 token”
  • OV 回路WOV=WVWOW_{OV} = W_V W_O): 决定信息传递,即”传递什么信息”

残差流(Residual Stream)作为信息的主要通道,各层通过读写残差流进行通信

帮助识别特定功能(如 induction heads、factual recall circuits)的具体实现位置

在量化/压缩中的应用:不同功能角色的组件对压缩的敏感度不同

代表工作

NSDS: 首次将机制可解释性的 Detector/Writer 分解应用于量化敏感度估计

Elhage et al. (2021): “A Mathematical Framework for Transformer Circuits”

Olsson et al. (2022): “In-context Learning and Induction Heads”

相关概念

Multi-Head Attention

SVD