L15: Interpretability (Guest: Been Kim)
Week 8 · Tue Feb 24 2026 08:00:00 GMT+0800 (中国标准时间)
进度: 0/22 (0%)
L15: Interpretability
- 授课: Been Kim (Guest Lecture)
- 日期: Feb 24, 2026 (Week 8)
Slides
- Slides 未公开(Guest Lecture)
核心知识点
可解释性(Interpretability)
- 理解模型内部决策机制的研究方向
- 从特征可视化到概念级别的解释
Agentic Interpretability
- 使用 AI agent 自动化解释模型行为
- 将可解释性研究从手动分析转向自动化发现
Pareto Frontier of Interpretability
- 解释的忠实度(faithfulness)与可理解性(comprehensibility)之间的权衡
- 在 Pareto 前沿上寻找最优解释策略
AlphaZero Concept Transfer
- 从 AlphaZero 中提取学到的概念并迁移到其他系统
- 探索 AI 系统中涌现概念的可迁移性
🔗 与其他讲座的关联
- L07 预训练:BERT 的表示被大量用于 probing 研究——不同层编码不同语言属性(词法 → 句法 → 语义)
- L05 Transformers:注意力头的可视化(每个头关注什么?)是最早的 Transformer 可解释性工作,但注意力权重 ≠ 解释(Jain & Wallace 2019 反驳)
- L16 社会影响:幻觉的根源之一是模型”知道但不知道自己不知道”——校准和可解释性高度相关
- Mechanistic Interpretability(Anthropic, EleutherAI):更细粒度地在电路级别理解 Transformer——superposition hypothesis、monosemantic/polysemantic neurons
推荐阅读
- Agentic Interpretability — 使用 AI agent 进行自动化可解释性研究
- Pareto Frontier of Interpretability — 解释忠实度与可理解性的帕累托前沿
- AlphaZero Concept Transfer — AlphaZero 概念迁移研究
关联概念
- Mechanistic Interpretability
- Feature Visualization
- RLHF