CS224N 学习计划

讲座 + 作业
0/ 23
论文阅读
0/ 12

周进度 Checklist

Week 2 (Jan 13-17)(0/3)

Week 3 (Jan 20-24)(0/3)

Week 4 (Jan 27-31)(0/2)

Week 5 (Feb 3-7)(0/3)

Week 6 (Feb 10-14)(0/2)

Week 7 (Feb 17-21)(0/2)

Week 8 (Feb 24-28)(0/2)

Week 9 (Mar 2-6)(0/2)

Week 10 (Mar 9-16)(0/1)

核心论文阅读进度

基础必读(0/5)

  • Mikolov et al. 2013 — Word2Vec
  • Pennington et al. 2014 — GloVe
  • Vaswani et al. 2017 — Attention Is All You Need
  • Devlin et al. 2019 — BERT
  • Radford et al. 2018/2019 — GPT / GPT-2

进阶精读(0/5)

  • Ouyang et al. 2022 — InstructGPT (RLHF)
  • Hu et al. 2022 — LoRA
  • Wei et al. 2022 — Chain-of-Thought Prompting
  • Bai et al. 2022 — Constitutional AI
  • Kalai & Vempala 2024 — Calibrated LMs Must Hallucinate

前沿选读(0/2)

  • ProRL (Liu et al. NeurIPS 2025) — Prolonged RL
  • RLP (Hatamizadeh et al. ICLR 2026) — RL as Pretraining

CS224N 学习计划

课程全景

整个课程沿着 NLP 技术栈自底向上构建:

词表示 → 神经网络 → 序列建模 → 注意力/Transformer → 预训练 → 对齐/微调 → 前沿应用

第一阶段:基础(Week 1-2, L01-L04)

讲座核心内容学习重点
L01 NLP 历史四个时代(规则→统计→ML→深度学习),Scaling Laws理解范式转变的驱动力——每次是什么瓶颈催生了新方法
L02 词向量Word2Vec Skip-gram、GloVe、负采样分布假说是一切的起点;理解 softmax → 负采样的优化动机
L03 神经网络反向传播、交叉熵/MLE、NER 分类计算图 + 链式法则——后面 Transformer 的梯度全靠这个;交叉熵与 MLE 的等价关系
L04 RNN/LM语言模型概率分解、RNN、梯度消失、LSTM语言模型是 GPT 的前身;理解为什么 RNN 会失败(梯度消失)以及 LSTM 如何修补

作业 A1(词向量):共现矩阵 + SVD,Word2Vec 向量类比和偏差分析 作业 A2(神经网络):手推反向传播 + 实现依赖句法解析器

这个阶段的底层逻辑:L02-L04 的每一步都在回答”上一步为什么不够好”——one-hot 太稀疏→词向量;词向量是静态的→需要上下文建模(RNN);RNN 有梯度消失→LSTM。理解这条问题驱动的演进链比记公式重要得多。


第二阶段:Transformer 核心(Week 3, L05-L06)

讲座核心内容学习重点
L05 TransformerSelf-Attention QKV 框架、Multi-Head、位置编码整门课最核心的一讲。QKV 的设计动机(为什么三种角色)、缩放因子 dk\sqrt{d_k}、并行 vs RNN 顺序
L06 Final Project三种 Transformer 架构对比(Encoder/Decoder/Enc-Dec)、项目指导Encoder(BERT)vs Decoder(GPT)vs Encoder-Decoder(T5)的注意力掩码差异

作业 A3(Transformer):从零实现 Transformer encoder——最硬核的作业

L05 是分水岭:之前的内容(词向量、RNN)是历史铺垫,之后的所有内容(预训练、RLHF、LoRA、RAG)都建立在 Transformer 之上。如果 L05 没有真正理解,后面的讲座会变成”记忆公式”而不是”理解原理”。


第三阶段:现代 LLM 流水线(Week 4-5, L07-L09)

讲座核心内容学习重点
L07 预训练BPE 分词、MLM(BERT) vs CLM(GPT)、预训练的样本效率优势理解预训练为什么有效(100x 样本效率)、MLM 和 CLM 的根本区别(双向 vs 自回归)
L08 后训练/对齐SFT → RLHF → DPO 三阶段流水线LLM 从”语言模型”变成”助手”的关键。RLHF 的奖励模型训练、DPO 如何绕过 RL 直接优化偏好
L09 高效微调Prompting(zero/few-shot/CoT)、LoRA、Adapter、Prompt Tuning实用性最强的一讲。LoRA 的低秩分解思想(ΔW=BA\Delta W = BA)、各种 PEFT 方法的参数效率对比

这三讲构成了现代 LLM 的完整生命周期:预训练(L07)→ 对齐(L08)→ 高效适配(L09)。面试和科研中被问最多的也是这三讲的内容。


第四阶段:前沿应用(Week 5-7, L10-L13)

讲座核心内容学习重点
L10 RAG & Agent检索增强生成、ReAct/ToT 框架、Agent 记忆与工具使用RAG 的检索→生成流水线;Agent 的思考-行动循环
L11 评估MMLU/HELM、标注伪迹、数据污染、LLM-as-Judge 偏差”你怎么知道模型变好了?“——评估的坑比想象中多得多(benchmark gaming、position bias)
L12 推理 (1/2)解码策略、Chain-of-Thought、DeepSeek-R1、GRPO/DAPOCoT 的概率论视角——推理 = 边际化中间步骤;test-time compute 的 scaling law
L13 推理 (2/2)Speculative Decoding、长上下文、推理时缩放 vs 训练时缩放推理加速的工程技巧;inference-time scaling 是当前最热的方向

作业 A4(LLM 评估):设计 benchmark、LLM-as-Judge、Red-teaming

L12-L13 是最前沿的内容,直接连接到 2024-2025 年的研究热点(DeepSeek-R1、o1/o3 推理模型)。


第五阶段:专题讲座(Week 8-10, L14-L19)

讲座核心内容学习重点
L14 分词/多语言BPE 算法细节、Zipf 定律、多语言词表分配分词看似简单但影响深远——中文/低资源语言的 token 效率问题
L15 可解释性概念激活向量(CAV)、Agentic 可解释性”用 AI 解释 AI”的新方向
L16 社会影响幻觉的信息论证明、算法单一文化”校准的模型必须幻觉”——这个证明值得深入理解
L17 多模态Transfusion 混合损失、跨模态对齐文本 + 图像统一建模的最新架构
L18 LoRA 深入LoRA 数学结构、初始化、缩放因子L09 的深化版,更关注实践细节
L19 开放问题数据饱和、合成数据、推理时缩放”暴力 scaling 时代结束了”——下一步往哪走?

Guest lecture 中 L14(分词)和 L16(幻觉证明)是最值得认真看的


作业与学习重点对照

作业讲座基础核心能力预估工时
A1 词向量L01-L02理解向量语义、SVD、Word2Vec~5h
A2 神经网络L03-L04手推反向传播、实现解析器~15h
A3 TransformerL05, L07从零实现 Transformer(最难)~20h
A4 LLM 评估L08, L11benchmark 设计、red-teaming~15h

学习优先级排序

  1. L05 (Transformer) + A3:整门课的地基。如果只有时间看一讲,看这个
  2. L07-L09 (预训练→对齐→PEFT):现代 LLM 完整 pipeline,面试/科研必备
  3. L03 (反向传播):理解梯度流对调试和设计新模型至关重要
  4. L12-L13 (推理):2024-2025 最热研究方向
  5. L02 (词向量):概念简单但数学优美,理解分布假说→负采样→GloVe 的演进链

AdaGrow 研究交叉思考

与 CS224N 内容的关联点

  • L05 Transformers ← AdaGrow 的 Transformer adapter 架构增长策略
  • L07 Pretraining ← 模型增长与预训练效率的关系: 渐进式增长是否能替代大模型从零训练?
  • L09 PEFT ← AdaGrow 的宽度/深度增长 vs. LoRA 的低秩适应: 两种”高效扩展”范式的对比
  • L12/L13 Reasoning ← ProRL 的 sustainable entropy 机制可借鉴到 AdaGrow 的训练调度
  • L16 Social Impact ← “Smaller but Better” 理念与 AdaGrow 的高效增长完美契合
  • L19 Open Questions ← Prismatic Synthesis 的 G-Vendi Score (梯度多样性度量) 可用于评估增长策略的多样性

潜在研究方向

  • AdaGrow + RL: 用 RL 信号指导模型何时增长、往哪里增长
  • 增长策略中的 entropy 控制: 借鉴 ProRL 的 decoupled clipping 防止增长后的 entropy collapse
  • 梯度驱动的增长点选择: 类似 Prismatic Synthesis 用梯度表示来选择最有价值的增长位置