L15: Interpretability (Guest: Been Kim)

Week 8 · Tue Feb 24 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

L15: Interpretability

  • 授课: Been Kim (Guest Lecture)
  • 日期: Feb 24, 2026 (Week 8)

Slides

  • Slides 未公开(Guest Lecture)

核心知识点

可解释性(Interpretability)

  • 理解模型内部决策机制的研究方向
  • 从特征可视化到概念级别的解释

Agentic Interpretability

  • 使用 AI agent 自动化解释模型行为
  • 将可解释性研究从手动分析转向自动化发现

Pareto Frontier of Interpretability

  • 解释的忠实度(faithfulness)与可理解性(comprehensibility)之间的权衡
  • 在 Pareto 前沿上寻找最优解释策略

AlphaZero Concept Transfer

  • 从 AlphaZero 中提取学到的概念并迁移到其他系统
  • 探索 AI 系统中涌现概念的可迁移性

🔗 与其他讲座的关联

  • L07 预训练:BERT 的表示被大量用于 probing 研究——不同层编码不同语言属性(词法 → 句法 → 语义)
  • L05 Transformers:注意力头的可视化(每个头关注什么?)是最早的 Transformer 可解释性工作,但注意力权重 ≠ 解释(Jain & Wallace 2019 反驳)
  • L16 社会影响:幻觉的根源之一是模型”知道但不知道自己不知道”——校准和可解释性高度相关
  • Mechanistic Interpretability(Anthropic, EleutherAI):更细粒度地在电路级别理解 Transformer——superposition hypothesis、monosemantic/polysemantic neurons

推荐阅读

  • Agentic Interpretability — 使用 AI agent 进行自动化可解释性研究
  • Pareto Frontier of Interpretability — 解释忠实度与可理解性的帕累托前沿
  • AlphaZero Concept Transfer — AlphaZero 概念迁移研究

关联概念

个人笔记