L03: Backpropagation and Neural Networks

Week 2 · Tue Jan 13 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

下载 PDF

/ 0

100%

正在加载 PDF...

L03: Backpropagation and Neural Networks

Slides

核心知识点

1. 词向量评估回顾（Recap from L02）

内在评估 vs 外在评估
- 内在：特定子任务上评估（快速，但与真实任务关联不明确）
- 外在：在真实任务上评估（耗时，但直接反映效果）
词类比（Word Analogies）： $d = \arg\max_i \frac{(x_b - x_a + x_c)^T x_i}{\|x_b - x_a + x_c\|}$
词相似度：WordSim353 数据集，GloVe 在多个基准上表现优异
GloVe 可视化：性别、皇室等语义关系在向量空间中呈现平行结构

📐 词类比公式完整推导

变量定义：

$x_a$ = 词 $a$ 的词向量（如 “man”）
$x_b$ = 词 $b$ 的词向量（如 “woman”）
$x_c$ = 词 $c$ 的词向量（如 “king”）
$d$ = 目标词（如 “queen”）的向量索引
$\|\cdot\|$ = L2 范数（向量的欧几里得长度）

推导过程：

第 1 步：语义关系 = 向量差。“man → woman” 这个关系可以用 $x_b - x_a$ 表示。训练良好的词向量满足 $x_b - x_a \approx x_d - x_c$ ，即”性别关系”在向量空间中是一个稳定的偏移方向。

第 2 步：目标向量估计。将关系迁移到 $x_c$ ，估计 $d$ 的向量应当接近：

$\hat{x}_d = x_b - x_a + x_c$

第 3 步：在词汇表中搜索最近邻。直接用欧几里得距离不够稳定（向量长度不一致），改用余弦相似度：

$\cos(\hat{x}_d, x_i) = \frac{\hat{x}_d^T x_i}{\|\hat{x}_d\| \cdot \|x_i\|}$

第 4 步：当所有 $x_i$ 均已归一化（ $\|x_i\| = 1$ ）时，分母中 $\|x_i\|$ 可省略：

$d = \arg\max_i \frac{(x_b - x_a + x_c)^T x_i}{\|x_b - x_a + x_c\|}$

即对查询向量归一化后，直接做点积排名即可。

直觉：词向量空间是”语义坐标系”。不同词对之间的关系对应方向，语义相似 = 方向相同。

📚 已收录至拓展阅读知识库

🔢 数值计算示例

设定（2维简化版）：

词	向量
man ( $x_a$ )	$[1.0,\ 0.0]$
woman ( $x_b$ )	$[0.0,\ 1.0]$
king ( $x_c$ )	$[0.9,\ 0.2]$
queen (待找)	$[?,\ ?]$

计算：

计算偏移向量： $\hat{x}_d = x_b - x_a + x_c = [0,1] - [1,0] + [0.9,0.2] = [-0.1,\ 1.2]$
归一化： $\|\hat{x}_d\| = \sqrt{0.01 + 1.44} = \sqrt{1.45} \approx 1.204$ ，归一化后 $\approx [-0.083,\ 0.997]$
若词汇表中 queen 的向量为 $[0.05, 0.99]$ （已归一化），则点积 $\approx -0.083 \times 0.05 + 0.997 \times 0.99 \approx 0.983$ ，得分最高

结果：queen 得分最接近查询向量，被正确检索出。

💡 为什么这样做？

词向量空间的核心假设是：语义关系 = 方向向量。“性别关系”、“国家-首都关系”、“时态关系”等都对应向量空间中特定的方向。词类比本质上是：沿着已知关系的方向，在新的起点出发，找落脚点。

类比日常：你知道”北京在中国的东部”这个方向，再加上”法国”，就能猜到”巴黎在法国的中部偏北”——同样的逻辑。

⚠️ 常见误区

误区：直接用欧几里得距离找最近邻更直观 → 正确：词向量的模长不统一，高频词向量往往更长；余弦相似度对方向更敏感，与训练目标更一致
误区：分子分母的 $\|x_b - x_a + x_c\|$ 可以省略 → 正确：当比较不同查询时需要归一化；若只是对同一查询排名，分子的归一化不影响 $\arg\max$ 结果，但规范写法应保留
误区：词类比评估 = 词相似度评估 → 正确：两者测量不同维度，类比测结构关系，相似度测语义距离

2. 深度学习分类：命名实体识别（NER）

任务：在文本中找到并分类命名实体（PER/LOC/ORG/DATE 等）
方法：窗口分类（Window Classification）
- 将中心词及其上下文窗口内的词向量拼接为输入 $x_{window} \in \mathbb{R}^{5d}$
- 用二分类或多分类逻辑回归/神经网络判断
示例：判断 “Paris” 是否为 LOCATION
- $x = [x_{museums}, x_{in}, x_{Paris}, x_{are}, x_{amazing}]^T$

📐 窗口分类输入构造与决策函数推导

变量定义：

$d$ = 词向量维度（如 $d = 300$ ）
$w$ = 窗口半径（如 $w = 2$ ，则窗口大小为 $2w+1 = 5$ ）
$x_t \in \mathbb{R}^d$ = 位置 $t$ 的词向量
$x_{window} \in \mathbb{R}^{(2w+1)d}$ = 窗口拼接向量
$W \in \mathbb{R}^{C \times (2w+1)d}$ = 分类权重矩阵（ $C$ 为类别数）

推导过程：

第 1 步：拼接（concatenate）操作。对位置 $t$ ，取上下文窗口内所有词向量，按顺序拼接（不是求和、不是平均）：

$x_{window} = \begin{bmatrix} x_{t-w} \\ x_{t-w+1} \\ \vdots \\ x_t \\ \vdots \\ x_{t+w} \end{bmatrix} \in \mathbb{R}^{(2w+1)d}$

数学上等价于： $x_{window} = [x_{t-w}^T,\ x_{t-w+1}^T,\ \ldots,\ x_t^T,\ \ldots,\ x_{t+w}^T]^T$

第 2 步：线性分类决策函数：

$\hat{y} = W \cdot x_{window} + b \in \mathbb{R}^C$

其中 $W \in \mathbb{R}^{C \times (2w+1)d}$ ，每一行对应一个类别的权重。

第 3 步：对二分类（是/否 LOCATION），输出层用 sigmoid：

$p(\text{LOC}|x) = \sigma(\hat{y}) = \frac{1}{1 + e^{-\hat{y}}}$

形状检查： $W$ 是 $(C) \times ((2w+1)d)$ ， $x_{window}$ 是 $((2w+1)d)$ ，乘积是 $(C)$ ，加偏置 $(C)$ ，形状一致。

📚 已收录至拓展阅读知识库

🔢 数值计算示例

设定： $d = 3$ ，窗口大小 $= 3$ （ $w=1$ ），判断中心词是否为 LOCATION

句子：“in Paris are”，中心词 = “Paris”

词	向量（ $d=3$ ）
“in” ( $x_{t-1}$ )	$[0.2, 0.1, 0.5]$
“Paris” ( $x_t$ )	$[0.8, 0.9, 0.3]$
“are” ( $x_{t+1}$ )	$[0.1, 0.3, 0.2]$

计算：

拼接： $x_{window} = [0.2, 0.1, 0.5,\ 0.8, 0.9, 0.3,\ 0.1, 0.3, 0.2]^T \in \mathbb{R}^9$
设 $W \in \mathbb{R}^{1 \times 9}$ （二分类）= $[0.1, 0.2, -0.1, 0.5, 0.4, 0.3, 0.0, 0.1, 0.2]$ ， $b = 0.1$
$\hat{y} = W \cdot x_{window} + b = 0.02 + 0.02 - 0.05 + 0.40 + 0.36 + 0.09 + 0 + 0.03 + 0.04 + 0.1 = 1.01$
$p = \sigma(1.01) \approx 0.733$ （73.3% 概率是 LOCATION）

💡 为什么这样做？

窗口分类的核心问题是：孤立地看一个词，无法判断它是不是命名实体。“Washington” 可以是人名也可以是地名，但”President Washington visited”和”Washington D.C. is”语境完全不同。

拼接上下文词向量，等于把”这个词周围的语境”打包成一个大向量，让分类器同时看到局部上下文。这是 NLP 中最基础的上下文特征提取思路。

⚠️ 常见误区

误区：窗口越大越好 → 正确：窗口是超参，太大引入噪声，太小上下文不足；NER 任务通常 $w=2$ 已足够
误区：拼接 = 求和（或平均） → 正确：拼接保留了位置信息（哪个词在哪个位置），而求和/平均会丢失顺序信息
误区：每个词的向量是 one-hot → 正确：这里的 $x_t$ 已经是词嵌入（低维稠密向量），不是稀疏的 one-hot 编码

3. 神经网络分类器

传统 softmax 分类器： $p(y|x) = \frac{\exp(W_y \cdot x)}{\sum_{c=1}^{C} \exp(W_c \cdot x)}$ $p (y ∣ x) = \frac{e x p ( W _{y} \cdot x )}{\sum _{c = 1}^{C} e x p ( W _{c} \cdot x )}$
- 只能给出线性决策边界
神经网络的关键区别：
- 同时学习权重矩阵 $W$ 和分布式表示（词向量 $x$ ）
- 多层网络 + 非线性函数 $\to$ 非线性决策边界
NER 二分类网络结构：
- $x \in \mathbb{R}^{5d}$ （输入：5 个词的拼接向量）
- $h = f(Wx + b)$ （隐藏层 + 非线性激活）
- $s = u^T h$ （评分）
- $J_t(\theta) = \sigma(s) = \frac{1}{1 + e^{-s}}$ （sigmoid 输出概率）

📐 神经网络分类器完整前向传播推导

变量定义：

$x \in \mathbb{R}^{5d}$ = 窗口拼接词向量（输入层）
$W^{(1)} \in \mathbb{R}^{m \times 5d}$ = 第一层权重矩阵（ $m$ 为隐藏层维度）
$b^{(1)} \in \mathbb{R}^m$ = 第一层偏置
$f(\cdot)$ = 逐元素非线性激活函数（如 $\tanh$ ）
$h \in \mathbb{R}^m$ = 隐藏层输出
$u \in \mathbb{R}^m$ = 输出权重向量
$s \in \mathbb{R}$ = 标量评分

推导过程：

第 1 步：线性变换。将输入投影到隐藏空间：

$z^{(1)} = W^{(1)} x + b^{(1)} \in \mathbb{R}^m$

展开矩阵乘法的第 $i$ 个分量： $z^{(1)}_i = \sum_{j=1}^{5d} W^{(1)}_{ij} x_j + b^{(1)}_i$

第 2 步：逐元素非线性激活：

$h = f(z^{(1)}) \in \mathbb{R}^m, \quad h_i = f(z^{(1)}_i)$

第 3 步：输出评分（标量）。用权重向量 $u$ 做内积：

$s = u^T h = \sum_{i=1}^{m} u_i h_i \in \mathbb{R}$

第 4 步：转化为概率（二分类用 sigmoid）：

$p = \sigma(s) = \frac{1}{1 + e^{-s}} \in (0, 1)$

为什么需要非线性：若去掉 $f$ ，则 $s = u^T (W^{(1)} x + b^{(1)}) = (u^T W^{(1)}) x + u^T b^{(1)}$ ，等价于单层线性模型 $s = w^T x + c$ ，无论堆多少层都如此。非线性是神经网络表达能力的根本来源。

📚 已收录至拓展阅读知识库

🔢 数值计算示例

设定： $d = 2$ ，窗口大小 3（ $5d \to$ 此例简化为窗口大小 3，即输入维度 $= 3d = 6$ ），隐藏层 $m = 4$ ，激活函数 $\tanh$

$W^{(1)} = \begin{bmatrix} 0.5 & -0.2 & 0.1 & 0.4 & -0.3 & 0.2 \\ -0.1 & 0.3 & 0.6 & -0.2 & 0.1 & 0.5 \\ 0.2 & 0.4 & -0.3 & 0.1 & 0.6 & -0.1 \\ 0.3 & -0.1 & 0.2 & 0.5 & -0.4 & 0.3 \end{bmatrix} \in \mathbb{R}^{4 \times 6}$

$x = [0.2, 0.1, 0.5, 0.8, 0.9, 0.3]^T,\quad b^{(1)} = [0, 0, 0, 0]^T,\quad u = [1, -1, 1, -1]^T$

计算：

$z^{(1)}_1 = 0.5(0.2) - 0.2(0.1) + 0.1(0.5) + 0.4(0.8) - 0.3(0.9) + 0.2(0.3) = 0.1 - 0.02 + 0.05 + 0.32 - 0.27 + 0.06 = 0.24$
类似计算其余分量（略），得 $z^{(1)} \approx [0.24, 0.61, 0.14, 0.02]^T$
激活： $h = \tanh(z^{(1)}) \approx [0.235, 0.545, 0.140, 0.020]^T$
评分： $s = u^T h = 0.235 - 0.545 + 0.140 - 0.020 = -0.190$
概率： $p = \sigma(-0.190) \approx 0.453$ （约 45% 概率为正类）

💡 为什么这样做？

神经网络的本质是特征变换器。第一层把原始词向量组合成”更抽象的特征”，激活函数引入非线性，使得决策边界可以弯曲——比线性分类器（只能画直线分割）强大得多。

类比：你想区分猫和狗，仅靠”耳朵长度”（一维）不够，但”耳朵长度 + 毛发颜色组合”（非线性特征）就能做到。神经网络自动学习哪些特征组合有用。

⚠️ 常见误区

误区： $s = u^T h$ 输出的是概率 → 正确： $s$ 是原始评分（可正可负，无界），经过 sigmoid 才变成 $(0,1)$ 区间的概率
误区：二分类用 sigmoid，多分类也用 sigmoid → 正确：多分类用 softmax（对所有类别归一化），二分类才用 sigmoid（等价于 2 类 softmax）
误区：偏置 $b$ 不重要 → 正确：偏置允许决策边界不过原点，大幅提升模型灵活性

4. 非线性激活函数

Sigmoid / Logistic： $f(z) = \frac{1}{1 + \exp(-z)}$ ，范围 $(0, 1)$
tanh： $\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$ $tanh (z) = \frac{e ^{z} - e ^{- z}}{e ^{z} + e ^{- z}}$ ，范围 $(-1, 1)$ $(- 1, 1)$
- $\tanh(z) = 2 \cdot \text{logistic}(2z) - 1$
ReLU： $\text{ReLU}(z) = \max(z, 0)$ $ReLU (z) = max (z, 0)$
- 训练快，梯度回传好；但有”死区”（负值区梯度为 0）
GELU： $\text{GELU}(x) = x \cdot P(X \le x)$ $GELU (x) = x \cdot P (X \leq x)$ ，近似 $x \cdot \text{logistic}(1.702x)$ $x \cdot logistic (1.702 x)$
- Transformer 常用
SwiGLU： $\text{SwiGLU}(x) = (xV + c) \otimes \text{Swish}_\beta(xW + b)$ $SwiGLU (x) = (x V + c) \otimes Swish_{β} (x W + b)$
- LLaMA 3、Qwen3 等现代 LLM 使用
非线性的必要性：没有非线性，多层网络退化为单一线性变换 $W_1 W_2 x = Wx$

📖 拓展阅读：激活函数导数完整推导 →

5. 交叉熵损失（Cross-Entropy Loss）

目标：最大化正确类别 $y$ 的概率 = 最小化负对数概率
交叉熵： $H(p, q) = -\sum_{c=1}^{C} p(c) \log q(c)$
当 $p$ 为 one-hot 时，简化为 $-\log p(y_i | x_i)$

📐 交叉熵损失从 MLE 到公式完整推导

变量定义：

$\theta$ = 模型参数
$p_{true}(c)$ = 真实分布（one-hot，正确类别为 1，其余为 0）
$q_\theta(c|x)$ = 模型预测的概率分布（softmax 输出）
$H(p, q)$ = 交叉熵（p 和 q 的交叉熵）
$N$ = 训练样本数

推导过程：

第 1 步：最大似然估计（MLE）。给定数据集 $\{(x_i, y_i)\}_{i=1}^N$ ，最大化所有样本的联合对数似然：

$\max_\theta \sum_{i=1}^N \log p_\theta(y_i | x_i)$

第 2 步：等价于最小化负对数似然（NLL）：

$\min_\theta -\sum_{i=1}^N \log p_\theta(y_i | x_i) = \min_\theta \sum_{i=1}^N \text{NLL}_i$

第 3 步：与交叉熵的联系。交叉熵的定义：

$H(p_{true}, q_\theta) = -\sum_{c=1}^C p_{true}(c) \log q_\theta(c|x)$

当 $p_{true}$ 为 one-hot（ $p_{true}(y) = 1$ ，其余为 0），所有 $c \ne y$ 的项乘以 0 消失：

$H(p_{true}, q_\theta) = -1 \cdot \log q_\theta(y|x) = -\log p_\theta(y|x)$

因此：最小化交叉熵 = 最大化正确类别的 log 概率 = MLE。

第 4 步：整个数据集的平均损失（除以 $N$ 以便不同大小数据集可比）：

$J(\theta) = -\frac{1}{N}\sum_{i=1}^N \log p_\theta(y_i | x_i) = \frac{1}{N}\sum_{i=1}^N H(p_{true}^{(i)}, q_\theta(\cdot|x_i))$

第 5 步：softmax + cross-entropy 合并简化。若 $p_\theta(c|x) = \text{softmax}(s_c) = \frac{e^{s_c}}{\sum_j e^{s_j}}$ ，则：

$-\log p_\theta(y|x) = -s_y + \log\sum_j e^{s_j}$

这正是 PyTorch 的 F.cross_entropy（内部做 log-softmax + NLL）。

📚 已收录至拓展阅读：交叉熵损失与 MLE（含 KL 散度、二元交叉熵、Label Smoothing 扩展）

🔢 数值计算示例

设定：3 类分类（类别 0/1/2），正确标签为类别 1

变量	值
one-hot label $p$	$[0, 1, 0]$
模型 softmax 输出 $q$	$[0.3, 0.5, 0.2]$

计算：

展开： $H(p, q) = -0 \cdot \log(0.3) - 1 \cdot \log(0.5) - 0 \cdot \log(0.2)$
化简： $= -\log(0.5) = \log 2 \approx 0.693$

对比（若预测更准 $q = [0.1, 0.8, 0.1]$ ）： $H = -\log(0.8) \approx 0.223$ ，损失更低。

对比（若预测错误 $q = [0.1, 0.1, 0.8]$ ）： $H = -\log(0.1) \approx 2.303$ ，损失很高。

结论：正确类别预测概率越高，交叉熵越低，梯度信号越弱（已经”学好了”）。

💡 为什么用交叉熵而不是 MSE？

信息论视角：交叉熵 $H(p,q)$ 度量的是”用 $q$ 编码 $p$ 事件所需的平均比特数”。 $p$ 和 $q$ 越接近， $H(p,q)$ 越小（趋近于 $H(p,p) =$ 熵）。最小化交叉熵就是让模型预测分布尽量接近真实分布。

梯度优势：对 softmax 输出用 MSE，梯度中会出现 $\sigma'(z)$ （sigmoid 导数），在饱和区几乎为零；而交叉熵的梯度是 $\hat{y} - y$ （预测值减真实值），简洁且无饱和问题。

⚠️ 常见误区

误区：交叉熵 = 信息熵 → 正确：信息熵 $H(p) = -\sum p \log p$ 只取决于真实分布；交叉熵 $H(p,q) = -\sum p \log q$ 还取决于模型预测；两者相差一个 KL 散度： $H(p,q) = H(p) + D_{KL}(p \| q)$
误区：多标签（multi-label）分类用 softmax + cross-entropy → 正确：多标签（一个样本可属于多个类别）应用 binary cross-entropy（每个标签独立的 sigmoid）；softmax 强制概率之和为 1，不适合多标签
误区： $\log$ 底数是 10 → 正确：机器学习中统一用自然对数（底数 $e$ ），单位是 nats（比特用 $\log_2$ ，但实践中混用，因为只相差常数倍，不影响优化）

6. 矩阵微积分（Matrix Calculus）

雅可比矩阵（Jacobian）： $\frac{\partial f}{\partial x} \in \mathbb{R}^{m \times n}$ ，其中 $\left(\frac{\partial f}{\partial x}\right)_{ij} = \frac{\partial f_i}{\partial x_j}$
链式法则的矩阵形式： $\frac{\partial s}{\partial x} = \frac{\partial h}{\partial x} \cdot \frac{\partial s}{\partial h}$
实用规则：
- $\frac{\partial}{\partial x}(Wx + b) = W$
- $\frac{\partial}{\partial x} f(z) = \text{diag}(f'(z))$ （逐元素非线性）
- $\frac{\partial}{\partial b}(u^T h) = u^T \text{diag}(f'(z))$
形状约定（shape convention）：梯度形状与参数形状相同（便于 SGD 更新）

📖 拓展阅读：矩阵微积分 — Jacobian 与链式法则 →

7. 反向传播算法（Backpropagation）

核心思想：利用计算图（computation graph）的链式法则从输出到输入逐层传播梯度
前向传播：计算各节点的值
反向传播：从损失出发，逆序传播梯度
- 每个节点只需知道：局部偏导 $\times$ 上游梯度
- 上游梯度 = $\frac{\partial L}{\partial z}$ （从后面传来的）
- 局部梯度 = $\frac{\partial z}{\partial x}$ （本节点的偏导）
- 下游梯度 = 上游梯度 $\times$ 局部梯度
效率：每条边只遍历一次，时间复杂度 $O(n)$ （ $n$ 为计算图中的节点数）
实现：PyTorch 的 autograd 自动完成

📐 反向传播完整推导：NER 二分类网络

网络定义：

$z^{(1)} = Wx + b, \quad h = \tanh(z^{(1)}), \quad s = u^T h, \quad J = -\log \sigma(s) \quad (y=1 \text{ 的二元交叉熵})$

参数： $\theta = \{W, b, u, x\}$ （此处也对输入 $x$ 求梯度，以便更新词向量）

第 1 步： $\frac{\partial J}{\partial s}$ （损失对评分的梯度）

$J = -\log \sigma(s)$ ， $\sigma(s) = \frac{1}{1+e^{-s}}$

$\frac{\partial J}{\partial s} = -\frac{1}{\sigma(s)} \cdot \sigma'(s) = -\frac{1}{\sigma(s)} \cdot \sigma(s)(1-\sigma(s)) = \sigma(s) - 1$

直觉： $\sigma(s) \in (0,1)$ ，所以 $\frac{\partial J}{\partial s} = \sigma(s)-1 \in (-1, 0)$ ——评分越高，梯度越小（越接近 0），因为已经预测得很好了。

第 2 步： $\frac{\partial J}{\partial u}$ （损失对输出权重 $u$ 的梯度）

$s = u^T h$ ，故 $\frac{\partial s}{\partial u} = h$ （列向量），链式法则：

$\frac{\partial J}{\partial u} = \frac{\partial J}{\partial s} \cdot \frac{\partial s}{\partial u} = (\sigma(s)-1) \cdot h \in \mathbb{R}^m$

第 3 步： $\frac{\partial J}{\partial z^{(1)}}$ （误差信号 $\delta$ ，关键中间量）

$\frac{\partial s}{\partial h} = u^T$ ， $\frac{\partial h}{\partial z^{(1)}} = \text{diag}(1 - h^2)$ （tanh 导数）

设上游梯度（从损失到 $h$ ）为：

$\frac{\partial J}{\partial h} = \frac{\partial J}{\partial s} \cdot \frac{\partial s}{\partial h} = (\sigma(s)-1) \cdot u^T \in \mathbb{R}^{1 \times m}$

传过 tanh（逐元素乘， $\odot$ 表示 Hadamard 积）：

$\delta \equiv \frac{\partial J}{\partial z^{(1)}} = (\sigma(s)-1) \cdot u \odot (1 - h^2) \in \mathbb{R}^m$

（将行向量转为列向量后与 $1-h^2$ 逐元素相乘）

第 4 步：各参数梯度

利用 $z^{(1)} = Wx + b$ 及 §6 的规则：

$\frac{\partial J}{\partial W} = \delta \cdot x^T \in \mathbb{R}^{m \times n} \quad \text{（外积，形状与 } W \text{ 相同）}$

$\frac{\partial J}{\partial b} = \delta \in \mathbb{R}^m \quad \text{（形状与 } b \text{ 相同）}$

$\frac{\partial J}{\partial x} = W^T \delta \in \mathbb{R}^n \quad \text{（传给词向量，用于联合训练）}$

计算图（ASCII 示意）：

x ──→ [z=Wx+b] ──→ [h=tanh(z)] ──→ [s=uᵀh] ──→ [J=-log σ(s)]
       ↑W,b              ↑                ↑u
  前向：→→→→→→→→→→→→→→→→→→→→→→→→→→→→→
  反向：←←←←←←←←←←←←←←←←←←←←←←←←←←←
       ∂J/∂W=δxᵀ    ∂J/∂z=δ        ∂J/∂s=σ(s)-1

每个节点只需记录自己的局部导数，不需要知道网络其他部分的结构。

📚 已收录至拓展阅读知识库

🔢 数值计算示例（完整前向 + 反向）

设定： $d=2$ ， $m=2$ ， $W = I_2$ （单位矩阵）， $b = [0,0]^T$ ， $u = [1,1]^T$ ， $x = [0.6, -0.4]^T$ ，标签 $y=1$

前向传播：

步骤	计算	结果
$z^{(1)} = Wx + b$	$= [0.6, -0.4]^T$	$[0.6,\ -0.4]^T$
$h = \tanh(z^{(1)})$	$[\tanh(0.6),\ \tanh(-0.4)]$	$[0.537,\ -0.380]^T$
$s = u^T h$	$1(0.537) + 1(-0.380)$	$0.157$
$\sigma(s)$	$\sigma(0.157)$	$0.539$
$J = -\log\sigma(s)$	$-\log(0.539)$	$0.618$

反向传播：

步骤	计算	结果
$\frac{\partial J}{\partial s} = \sigma(s)-1$	$0.539 - 1$	$-0.461$
$\frac{\partial J}{\partial u} = (\sigma(s)-1) h$	$-0.461 \times [0.537, -0.380]^T$	$[-0.248,\ 0.175]^T$
$1 - h^2$	$[1-0.537^2,\ 1-0.380^2]$	$[0.712,\ 0.856]^T$
$\delta = (\sigma(s)-1) u \odot (1-h^2)$	$-0.461 \times [1,1]^T \odot [0.712, 0.856]^T$	$[-0.328,\ -0.395]^T$
$\frac{\partial J}{\partial W} = \delta x^T$	$[-0.328, -0.395]^T \cdot [0.6, -0.4]$	$\begin{bmatrix}-0.197 & 0.131 \\ -0.237 & 0.158\end{bmatrix}$
$\frac{\partial J}{\partial b} = \delta$	—	$[-0.328,\ -0.395]^T$
$\frac{\partial J}{\partial x} = W^T \delta$	$I \cdot [-0.328, -0.395]^T$	$[-0.328,\ -0.395]^T$

验证： $\frac{\partial J}{\partial W}$ 形状 $2 \times 2 =$ $W$ 的形状 ✓， $\frac{\partial J}{\partial x}$ 形状 $2 =$ $x$ 的形状 ✓

💡 反向传播的本质是什么？

反向传播的天才之处在于重用中间计算结果。如果你手动展开损失对每个参数的偏导数（拆掉所有复合函数），会得到大量重复子表达式。反向传播通过计算图把这些子表达式只计算一次，存起来复用。

类比：计算 $f(x) = ((x+1)^2 + (x+1)^3) \times 5$ ，先算 $u = x+1$ ，再算 $u^2$ 、 $u^3$ ，比展开后各自对 $x$ 求导快得多。

时间复杂度是 $O(n)$ （ $n$ 为参数数量）——每个参数的梯度计算量与前向传播等量级。这是深度学习可扩展到数十亿参数的根本原因。

⚠️ 常见误区

误区：反向传播 = 梯度下降 → 正确：反向传播只负责计算梯度（ $\nabla_\theta J$ ），梯度下降（或 Adam 等优化器）才负责用梯度更新参数（ $\theta \leftarrow \theta - \eta \nabla J$ ）。两者是完全不同的操作。
梯度累加陷阱：若某节点（如词向量）被多个地方引用（同一个词在窗口中出现多次），其梯度必须累加所有路径传来的梯度，而不是取平均或覆盖。PyTorch 的 .grad 属性在多次 backward 时会自动累加（这也是为什么要 optimizer.zero_grad()）。
tanh 导数记忆： $\tanh'(z) = 1 - \tanh^2(z)$ ，不要写成 $1/\cosh^2(z)$ （虽然等价，但前者可直接用前向已算出的 $h = \tanh(z)$ ，后者还需重新算 $\cosh$ ）。
误区：只有参数需要梯度 → 正确：NLP 中词向量也是参数， $\frac{\partial J}{\partial x}$ 非零，用于联合训练（fine-tuning embedding）。若想固定词向量，需要显式 requires_grad=False。

关联概念

Backpropagation, Computation Graph, Cross-Entropy Loss, Activation Function, NER, Jacobian

作业提醒

A2 发布（神经网络基础 + 张量求导 + 依赖解析）
A1 截止

L03: Backpropagation and Neural Networks

L03: Backpropagation and Neural Networks

Slides

中英交替版（推荐）

英文原版

中文翻译版

核心知识点

1. 词向量评估回顾（Recap from L02）

📐 词类比公式完整推导

🔢 数值计算示例

💡 为什么这样做？

⚠️ 常见误区

2. 深度学习分类：命名实体识别（NER）

📐 窗口分类输入构造与决策函数推导

🔢 数值计算示例

💡 为什么这样做？

⚠️ 常见误区

3. 神经网络分类器

📐 神经网络分类器完整前向传播推导

🔢 数值计算示例

💡 为什么这样做？

⚠️ 常见误区

4. 非线性激活函数

5. 交叉熵损失（Cross-Entropy Loss）

📐 交叉熵损失从 MLE 到公式完整推导

🔢 数值计算示例

💡 为什么用交叉熵而不是 MSE？

⚠️ 常见误区

6. 矩阵微积分（Matrix Calculus）

7. 反向传播算法（Backpropagation）

📐 反向传播完整推导：NER 二分类网络

🔢 数值计算示例（完整前向 + 反向）

💡 反向传播的本质是什么？

⚠️ 常见误区

推荐阅读

关联概念

作业提醒

个人笔记