CS224N 学习计划

讲座 + 作业

0/ 23

论文阅读

0/ 12

周进度 Checklist

Week 1 (Jan 6-10)(0/3)

Week 2 (Jan 13-17)(0/3)

L03 Neural Nets — Jan 13
L04 RNN & LM — Jan 15
•A1 Due (Jan 15)
A2 Neural Nets 发布 (Jan 13)，开始做

Week 3 (Jan 20-24)(0/3)

Week 4 (Jan 27-31)(0/2)

L07 Pretraining — Jan 27
L08 Post-training — Jan 29

Week 5 (Feb 3-7)(0/3)

Week 6 (Feb 10-14)(0/2)

L11 Evaluation — Feb 10
L12 Reasoning Part 1 — Feb 12
•Project Proposal Due (Feb 10)

Week 7 (Feb 17-21)(0/2)

L13 Reasoning Part 2 — Feb 18
L14 Tokenization & Multilinguality — Feb 20
•A4 Due (Feb 19)

Week 8 (Feb 24-28)(0/2)

L15 Interpretability — Feb 24
L16 Social Impact — Feb 26
•Project Milestone Due (Feb 26)

Week 9 (Mar 2-6)(0/2)

L17 Multimodality — Mar 3
L18 LoRA Without Regret — Mar 5

Week 10 (Mar 9-16)(0/1)

L19 Open Questions — Mar 10
•Final Report Due (Mar 12)
•Poster Session (Mar 16)

核心论文阅读进度

基础必读(0/5)

Mikolov et al. 2013 — Word2Vec
Pennington et al. 2014 — GloVe
Vaswani et al. 2017 — Attention Is All You Need
Devlin et al. 2019 — BERT
Radford et al. 2018/2019 — GPT / GPT-2

进阶精读(0/5)

Ouyang et al. 2022 — InstructGPT (RLHF)
Hu et al. 2022 — LoRA
Wei et al. 2022 — Chain-of-Thought Prompting
Bai et al. 2022 — Constitutional AI
Kalai & Vempala 2024 — Calibrated LMs Must Hallucinate

前沿选读(0/2)

ProRL (Liu et al. NeurIPS 2025) — Prolonged RL
RLP (Hatamizadeh et al. ICLR 2026) — RL as Pretraining

CS224N 学习计划

课程全景

整个课程沿着 NLP 技术栈自底向上构建：

词表示 → 神经网络 → 序列建模 → 注意力/Transformer → 预训练 → 对齐/微调 → 前沿应用

第一阶段：基础（Week 1-2, L01-L04）

讲座	核心内容	学习重点
L01 NLP 历史	四个时代（规则→统计→ML→深度学习），Scaling Laws	理解范式转变的驱动力——每次是什么瓶颈催生了新方法
L02 词向量	Word2Vec Skip-gram、GloVe、负采样	分布假说是一切的起点；理解 softmax → 负采样的优化动机
L03 神经网络	反向传播、交叉熵/MLE、NER 分类	计算图 + 链式法则——后面 Transformer 的梯度全靠这个；交叉熵与 MLE 的等价关系
L04 RNN/LM	语言模型概率分解、RNN、梯度消失、LSTM	语言模型是 GPT 的前身；理解为什么 RNN 会失败（梯度消失）以及 LSTM 如何修补

作业 A1（词向量）：共现矩阵 + SVD，Word2Vec 向量类比和偏差分析 作业 A2（神经网络）：手推反向传播 + 实现依赖句法解析器

这个阶段的底层逻辑：L02-L04 的每一步都在回答”上一步为什么不够好”——one-hot 太稀疏→词向量；词向量是静态的→需要上下文建模（RNN）；RNN 有梯度消失→LSTM。理解这条问题驱动的演进链比记公式重要得多。

第二阶段：Transformer 核心（Week 3, L05-L06）

讲座	核心内容	学习重点
L05 Transformer	Self-Attention QKV 框架、Multi-Head、位置编码	整门课最核心的一讲。QKV 的设计动机（为什么三种角色）、缩放因子 $\sqrt{d_k}$ 、并行 vs RNN 顺序
L06 Final Project	三种 Transformer 架构对比（Encoder/Decoder/Enc-Dec）、项目指导	Encoder（BERT）vs Decoder（GPT）vs Encoder-Decoder（T5）的注意力掩码差异

作业 A3（Transformer）：从零实现 Transformer encoder——最硬核的作业

L05 是分水岭：之前的内容（词向量、RNN）是历史铺垫，之后的所有内容（预训练、RLHF、LoRA、RAG）都建立在 Transformer 之上。如果 L05 没有真正理解，后面的讲座会变成”记忆公式”而不是”理解原理”。

第三阶段：现代 LLM 流水线（Week 4-5, L07-L09）

讲座	核心内容	学习重点
L07 预训练	BPE 分词、MLM(BERT) vs CLM(GPT)、预训练的样本效率优势	理解预训练为什么有效（100x 样本效率）、MLM 和 CLM 的根本区别（双向 vs 自回归）
L08 后训练/对齐	SFT → RLHF → DPO 三阶段流水线	LLM 从”语言模型”变成”助手”的关键。RLHF 的奖励模型训练、DPO 如何绕过 RL 直接优化偏好
L09 高效微调	Prompting（zero/few-shot/CoT）、LoRA、Adapter、Prompt Tuning	实用性最强的一讲。LoRA 的低秩分解思想（ $\Delta W = BA$ ）、各种 PEFT 方法的参数效率对比

这三讲构成了现代 LLM 的完整生命周期：预训练（L07）→ 对齐（L08）→ 高效适配（L09）。面试和科研中被问最多的也是这三讲的内容。

第四阶段：前沿应用（Week 5-7, L10-L13）

讲座	核心内容	学习重点
L10 RAG & Agent	检索增强生成、ReAct/ToT 框架、Agent 记忆与工具使用	RAG 的检索→生成流水线；Agent 的思考-行动循环
L11 评估	MMLU/HELM、标注伪迹、数据污染、LLM-as-Judge 偏差	”你怎么知道模型变好了？“——评估的坑比想象中多得多（benchmark gaming、position bias）
L12 推理 (1/2)	解码策略、Chain-of-Thought、DeepSeek-R1、GRPO/DAPO	CoT 的概率论视角——推理 = 边际化中间步骤；test-time compute 的 scaling law
L13 推理 (2/2)	Speculative Decoding、长上下文、推理时缩放 vs 训练时缩放	推理加速的工程技巧；inference-time scaling 是当前最热的方向

作业 A4（LLM 评估）：设计 benchmark、LLM-as-Judge、Red-teaming

L12-L13 是最前沿的内容，直接连接到 2024-2025 年的研究热点（DeepSeek-R1、o1/o3 推理模型）。

第五阶段：专题讲座（Week 8-10, L14-L19）

讲座	核心内容	学习重点
L14 分词/多语言	BPE 算法细节、Zipf 定律、多语言词表分配	分词看似简单但影响深远——中文/低资源语言的 token 效率问题
L15 可解释性	概念激活向量（CAV）、Agentic 可解释性	”用 AI 解释 AI”的新方向
L16 社会影响	幻觉的信息论证明、算法单一文化	”校准的模型必须幻觉”——这个证明值得深入理解
L17 多模态	Transfusion 混合损失、跨模态对齐	文本 + 图像统一建模的最新架构
L18 LoRA 深入	LoRA 数学结构、初始化、缩放因子	L09 的深化版，更关注实践细节
L19 开放问题	数据饱和、合成数据、推理时缩放	”暴力 scaling 时代结束了”——下一步往哪走？

Guest lecture 中 L14（分词）和 L16（幻觉证明）是最值得认真看的。

作业与学习重点对照

作业	讲座基础	核心能力	预估工时
A1 词向量	L01-L02	理解向量语义、SVD、Word2Vec	~5h
A2 神经网络	L03-L04	手推反向传播、实现解析器	~15h
A3 Transformer	L05, L07	从零实现 Transformer（最难）	~20h
A4 LLM 评估	L08, L11	benchmark 设计、red-teaming	~15h

学习优先级排序

L05 (Transformer) + A3：整门课的地基。如果只有时间看一讲，看这个
L07-L09 (预训练→对齐→PEFT)：现代 LLM 完整 pipeline，面试/科研必备
L03 (反向传播)：理解梯度流对调试和设计新模型至关重要
L12-L13 (推理)：2024-2025 最热研究方向
L02 (词向量)：概念简单但数学优美，理解分布假说→负采样→GloVe 的演进链

AdaGrow 研究交叉思考

与 CS224N 内容的关联点

L05 Transformers ← AdaGrow 的 Transformer adapter 架构增长策略
L07 Pretraining ← 模型增长与预训练效率的关系: 渐进式增长是否能替代大模型从零训练？
L09 PEFT ← AdaGrow 的宽度/深度增长 vs. LoRA 的低秩适应: 两种”高效扩展”范式的对比
L12/L13 Reasoning ← ProRL 的 sustainable entropy 机制可借鉴到 AdaGrow 的训练调度
L16 Social Impact ← “Smaller but Better” 理念与 AdaGrow 的高效增长完美契合
L19 Open Questions ← Prismatic Synthesis 的 G-Vendi Score (梯度多样性度量) 可用于评估增长策略的多样性

潜在研究方向

AdaGrow + RL: 用 RL 信号指导模型何时增长、往哪里增长
增长策略中的 entropy 控制: 借鉴 ProRL 的 decoupled clipping 防止增长后的 entropy collapse
梯度驱动的增长点选择: 类似 Prismatic Synthesis 用梯度表示来选择最有价值的增长位置