CS224N 学习计划
讲座 + 作业
0/ 23
论文阅读
0/ 12
周进度 Checklist
Week 1 (Jan 6-10)(0/3)
- L01 History of NLP — Jan 6
- L02 Word Vectors — Jan 8
- A1 Word Vectors 发布 (Jan 6),开始做
Week 2 (Jan 13-17)(0/3)
- L03 Neural Nets — Jan 13
- L04 RNN & LM — Jan 15
- •A1 Due (Jan 15)
- A2 Neural Nets 发布 (Jan 13),开始做
Week 3 (Jan 20-24)(0/3)
- L05 Transformers — Jan 21
- L06 Final Project — Jan 23
- •A2 Due (Jan 22)
- A3 Transformers 发布 (Jan 22),开始做
Week 4 (Jan 27-31)(0/2)
- L07 Pretraining — Jan 27
- L08 Post-training — Jan 29
Week 5 (Feb 3-7)(0/3)
- L09 PEFT — Feb 3
- L10 RAG & Agents — Feb 5
- •A3 Due (Feb 5)
- A4 LLM Evaluation 发布 (Feb 5),开始做
Week 6 (Feb 10-14)(0/2)
- L11 Evaluation — Feb 10
- L12 Reasoning Part 1 — Feb 12
- •Project Proposal Due (Feb 10)
Week 7 (Feb 17-21)(0/2)
- L13 Reasoning Part 2 — Feb 18
- L14 Tokenization & Multilinguality — Feb 20
- •A4 Due (Feb 19)
Week 8 (Feb 24-28)(0/2)
- L15 Interpretability — Feb 24
- L16 Social Impact — Feb 26
- •Project Milestone Due (Feb 26)
Week 9 (Mar 2-6)(0/2)
- L17 Multimodality — Mar 3
- L18 LoRA Without Regret — Mar 5
Week 10 (Mar 9-16)(0/1)
- L19 Open Questions — Mar 10
- •Final Report Due (Mar 12)
- •Poster Session (Mar 16)
核心论文阅读进度
基础必读(0/5)
- Mikolov et al. 2013 — Word2Vec
- Pennington et al. 2014 — GloVe
- Vaswani et al. 2017 — Attention Is All You Need
- Devlin et al. 2019 — BERT
- Radford et al. 2018/2019 — GPT / GPT-2
进阶精读(0/5)
- Ouyang et al. 2022 — InstructGPT (RLHF)
- Hu et al. 2022 — LoRA
- Wei et al. 2022 — Chain-of-Thought Prompting
- Bai et al. 2022 — Constitutional AI
- Kalai & Vempala 2024 — Calibrated LMs Must Hallucinate
前沿选读(0/2)
- ProRL (Liu et al. NeurIPS 2025) — Prolonged RL
- RLP (Hatamizadeh et al. ICLR 2026) — RL as Pretraining
CS224N 学习计划
课程全景
整个课程沿着 NLP 技术栈自底向上构建:
词表示 → 神经网络 → 序列建模 → 注意力/Transformer → 预训练 → 对齐/微调 → 前沿应用
第一阶段:基础(Week 1-2, L01-L04)
| 讲座 | 核心内容 | 学习重点 |
|---|---|---|
| L01 NLP 历史 | 四个时代(规则→统计→ML→深度学习),Scaling Laws | 理解范式转变的驱动力——每次是什么瓶颈催生了新方法 |
| L02 词向量 | Word2Vec Skip-gram、GloVe、负采样 | 分布假说是一切的起点;理解 softmax → 负采样的优化动机 |
| L03 神经网络 | 反向传播、交叉熵/MLE、NER 分类 | 计算图 + 链式法则——后面 Transformer 的梯度全靠这个;交叉熵与 MLE 的等价关系 |
| L04 RNN/LM | 语言模型概率分解、RNN、梯度消失、LSTM | 语言模型是 GPT 的前身;理解为什么 RNN 会失败(梯度消失)以及 LSTM 如何修补 |
作业 A1(词向量):共现矩阵 + SVD,Word2Vec 向量类比和偏差分析 作业 A2(神经网络):手推反向传播 + 实现依赖句法解析器
这个阶段的底层逻辑:L02-L04 的每一步都在回答”上一步为什么不够好”——one-hot 太稀疏→词向量;词向量是静态的→需要上下文建模(RNN);RNN 有梯度消失→LSTM。理解这条问题驱动的演进链比记公式重要得多。
第二阶段:Transformer 核心(Week 3, L05-L06)
| 讲座 | 核心内容 | 学习重点 |
|---|---|---|
| L05 Transformer | Self-Attention QKV 框架、Multi-Head、位置编码 | 整门课最核心的一讲。QKV 的设计动机(为什么三种角色)、缩放因子 、并行 vs RNN 顺序 |
| L06 Final Project | 三种 Transformer 架构对比(Encoder/Decoder/Enc-Dec)、项目指导 | Encoder(BERT)vs Decoder(GPT)vs Encoder-Decoder(T5)的注意力掩码差异 |
作业 A3(Transformer):从零实现 Transformer encoder——最硬核的作业
L05 是分水岭:之前的内容(词向量、RNN)是历史铺垫,之后的所有内容(预训练、RLHF、LoRA、RAG)都建立在 Transformer 之上。如果 L05 没有真正理解,后面的讲座会变成”记忆公式”而不是”理解原理”。
第三阶段:现代 LLM 流水线(Week 4-5, L07-L09)
| 讲座 | 核心内容 | 学习重点 |
|---|---|---|
| L07 预训练 | BPE 分词、MLM(BERT) vs CLM(GPT)、预训练的样本效率优势 | 理解预训练为什么有效(100x 样本效率)、MLM 和 CLM 的根本区别(双向 vs 自回归) |
| L08 后训练/对齐 | SFT → RLHF → DPO 三阶段流水线 | LLM 从”语言模型”变成”助手”的关键。RLHF 的奖励模型训练、DPO 如何绕过 RL 直接优化偏好 |
| L09 高效微调 | Prompting(zero/few-shot/CoT)、LoRA、Adapter、Prompt Tuning | 实用性最强的一讲。LoRA 的低秩分解思想()、各种 PEFT 方法的参数效率对比 |
这三讲构成了现代 LLM 的完整生命周期:预训练(L07)→ 对齐(L08)→ 高效适配(L09)。面试和科研中被问最多的也是这三讲的内容。
第四阶段:前沿应用(Week 5-7, L10-L13)
| 讲座 | 核心内容 | 学习重点 |
|---|---|---|
| L10 RAG & Agent | 检索增强生成、ReAct/ToT 框架、Agent 记忆与工具使用 | RAG 的检索→生成流水线;Agent 的思考-行动循环 |
| L11 评估 | MMLU/HELM、标注伪迹、数据污染、LLM-as-Judge 偏差 | ”你怎么知道模型变好了?“——评估的坑比想象中多得多(benchmark gaming、position bias) |
| L12 推理 (1/2) | 解码策略、Chain-of-Thought、DeepSeek-R1、GRPO/DAPO | CoT 的概率论视角——推理 = 边际化中间步骤;test-time compute 的 scaling law |
| L13 推理 (2/2) | Speculative Decoding、长上下文、推理时缩放 vs 训练时缩放 | 推理加速的工程技巧;inference-time scaling 是当前最热的方向 |
作业 A4(LLM 评估):设计 benchmark、LLM-as-Judge、Red-teaming
L12-L13 是最前沿的内容,直接连接到 2024-2025 年的研究热点(DeepSeek-R1、o1/o3 推理模型)。
第五阶段:专题讲座(Week 8-10, L14-L19)
| 讲座 | 核心内容 | 学习重点 |
|---|---|---|
| L14 分词/多语言 | BPE 算法细节、Zipf 定律、多语言词表分配 | 分词看似简单但影响深远——中文/低资源语言的 token 效率问题 |
| L15 可解释性 | 概念激活向量(CAV)、Agentic 可解释性 | ”用 AI 解释 AI”的新方向 |
| L16 社会影响 | 幻觉的信息论证明、算法单一文化 | ”校准的模型必须幻觉”——这个证明值得深入理解 |
| L17 多模态 | Transfusion 混合损失、跨模态对齐 | 文本 + 图像统一建模的最新架构 |
| L18 LoRA 深入 | LoRA 数学结构、初始化、缩放因子 | L09 的深化版,更关注实践细节 |
| L19 开放问题 | 数据饱和、合成数据、推理时缩放 | ”暴力 scaling 时代结束了”——下一步往哪走? |
Guest lecture 中 L14(分词)和 L16(幻觉证明)是最值得认真看的。
作业与学习重点对照
| 作业 | 讲座基础 | 核心能力 | 预估工时 |
|---|---|---|---|
| A1 词向量 | L01-L02 | 理解向量语义、SVD、Word2Vec | ~5h |
| A2 神经网络 | L03-L04 | 手推反向传播、实现解析器 | ~15h |
| A3 Transformer | L05, L07 | 从零实现 Transformer(最难) | ~20h |
| A4 LLM 评估 | L08, L11 | benchmark 设计、red-teaming | ~15h |
学习优先级排序
- L05 (Transformer) + A3:整门课的地基。如果只有时间看一讲,看这个
- L07-L09 (预训练→对齐→PEFT):现代 LLM 完整 pipeline,面试/科研必备
- L03 (反向传播):理解梯度流对调试和设计新模型至关重要
- L12-L13 (推理):2024-2025 最热研究方向
- L02 (词向量):概念简单但数学优美,理解分布假说→负采样→GloVe 的演进链
AdaGrow 研究交叉思考
与 CS224N 内容的关联点
- L05 Transformers ← AdaGrow 的 Transformer adapter 架构增长策略
- L07 Pretraining ← 模型增长与预训练效率的关系: 渐进式增长是否能替代大模型从零训练?
- L09 PEFT ← AdaGrow 的宽度/深度增长 vs. LoRA 的低秩适应: 两种”高效扩展”范式的对比
- L12/L13 Reasoning ← ProRL 的 sustainable entropy 机制可借鉴到 AdaGrow 的训练调度
- L16 Social Impact ← “Smaller but Better” 理念与 AdaGrow 的高效增长完美契合
- L19 Open Questions ← Prismatic Synthesis 的 G-Vendi Score (梯度多样性度量) 可用于评估增长策略的多样性
潜在研究方向
- AdaGrow + RL: 用 RL 信号指导模型何时增长、往哪里增长
- 增长策略中的 entropy 控制: 借鉴 ProRL 的 decoupled clipping 防止增长后的 entropy collapse
- 梯度驱动的增长点选择: 类似 Prismatic Synthesis 用梯度表示来选择最有价值的增长位置