CS224N / 学习笔记

#CS224N-lecture #interpretability #guest-lecture

L15: Interpretability (Guest: Been Kim)

Week 8 · Tue Feb 24 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

L15: Interpretability

授课: Been Kim (Guest Lecture)
日期: Feb 24, 2026 (Week 8)

Slides

Slides 未公开（Guest Lecture）

核心知识点

可解释性（Interpretability）

理解模型内部决策机制的研究方向
从特征可视化到概念级别的解释

📖 拓展阅读：线性表示假说与 CAV（概念激活向量）→

Agentic Interpretability

使用 AI agent 自动化解释模型行为
将可解释性研究从手动分析转向自动化发现

Pareto Frontier of Interpretability

解释的忠实度（faithfulness）与可理解性（comprehensibility）之间的权衡
在 Pareto 前沿上寻找最优解释策略

AlphaZero Concept Transfer

从 AlphaZero 中提取学到的概念并迁移到其他系统
探索 AI 系统中涌现概念的可迁移性

🔗 与其他讲座的关联

L07 预训练：BERT 的表示被大量用于 probing 研究——不同层编码不同语言属性（词法 → 句法 → 语义）
L05 Transformers：注意力头的可视化（每个头关注什么？）是最早的 Transformer 可解释性工作，但注意力权重 ≠ 解释（Jain & Wallace 2019 反驳）
L16 社会影响：幻觉的根源之一是模型”知道但不知道自己不知道”——校准和可解释性高度相关
Mechanistic Interpretability（Anthropic, EleutherAI）：更细粒度地在电路级别理解 Transformer——superposition hypothesis、monosemantic/polysemantic neurons

推荐阅读

Agentic Interpretability — 使用 AI agent 进行自动化可解释性研究
Pareto Frontier of Interpretability — 解释忠实度与可理解性的帕累托前沿
AlphaZero Concept Transfer — AlphaZero 概念迁移研究

关联概念

Mechanistic Interpretability
Feature Visualization
RLHF

个人笔记