CS224N / 学习笔记

拓展阅读

数学推导 · 理论基础 · 可检索知识库 · 共 55 个主题

概率模型

3 篇

HMM 完整推导：前向算法、维特比解码与 Baum-Welch EM

PCFG 与 CYK 算法：句法分析的概率化

N-gram 语言模型与平滑技术

词向量与表示学习

4 篇

Word2Vec Skip-gram 目标函数与梯度推导

负采样（Negative Sampling）理论与推导

GloVe 目标函数推导

词类比公式与窗口分类推导

神经网络基础

7 篇

反向传播与神经网络前向传播完整推导

矩阵微积分：Jacobian 与链式法则

激活函数导数完整推导

LSTM 完整推导与梯度消失分析

语言模型的概率基础

梯度连乘与条件语言模型推导

损失函数数学基础：MLE、交叉熵、KL 散度与 MSE

注意力与Transformer

7 篇

Self-Attention 完整推导

Multi-Head Attention 与 Transformer 核心组件

Transformer 计算复杂度分析

三种 Transformer 架构的注意力矩阵对比

Query-Key-Value 框架：概念、设计动机与解决的问题

三种 Transformer 架构详解：Encoder、Decoder、Encoder-Decoder

FFN 前馈网络详解：概念、机制与目的

预训练与微调

17 篇

BPE 算法完整步骤

探针任务（Probing）

预训练目标函数与架构对比

RLHF 完整数学推导

DPO 与 GRPO 完整推导

SFT / CLM / Instruction FT 完整详解

SimPO 与 DPO 对比推导

GRPO vs PPO/RPO：RL 对齐算法全景对比

结构化剪枝的一般框架

Prompting 完整分析：涌现史、ICL、CoT、敏感性与局限

LoRA、Adapter 与 Prompt Tuning 推导

字节级（Byte-Level）模型分析

BPE 算法完整伪代码

Tokenization 理论与多语言分析

Constitutional AI 两阶段算法

Transfusion 的混合损失函数

LoRA 的完整数学结构（Guest Lecture）

推理与评估

17 篇

Chain-of-Thought 的概率论视角

DeepSeek-R1 训练流程与 RL 方法对比

Scaling Laws 与 Chinchilla 最优

Agent 评估的奖励设计

RAG 与 Agent 系统的形式化推导

Goodhart 定律的形式化

NLP 评估指标与协议

Speculative Decoding 算法与加速分析

Off-policy 问题与 RoPE Position Scaling

Best-of-N 采样分析

线性表示假说与 CAV

校准模型必须幻觉：信息论证明

算法单一文化（Algorithmic Monoculture）形式化

GRPO 改进谱系：DAPO / Dr.GRPO / GFPO / GSPO

L08 L19 ← 讲座

G-Vendi Score：梯度度量数据多样性

RLP Information Gain Reward 推导

GRPO 目标函数与 Pass@K 的关系