L12: Reasoning 1/2

Week 6 · Thu Feb 12 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

下载 PDF

/ 0

100%

正在加载 PDF...

L12: Reasoning 1/2

Lecturer: Yejin Choi

Slides

核心知识点

1. 解码技术（Decoding Techniques）

基础解码算法

Greedy decoding：每步选最高概率 token，局部最优但可能全局次优
Beam search：保持 top-k 个候选序列，经典 NLP 标准方法，但现代 LLM 较少使用
Beam search (k=1) = Greedy decoding

神经文本退化（Neural Text Degeneration）

Holtzman et al., 2019: 最可能的序列往往重复退化
Beam search 生成重复文本，纯采样生成不连贯文本
重复越多越可能：陷入重复循环后概率持续上升

采样方法

Top-k sampling（Fan et al., 2018）：只从概率最高的 k 个 token 中采样
- 问题：对平坦分布截断太快，对尖锐分布截断太慢
Top-p (Nucleus) sampling（Holtzman et al., 2019）：从累积概率达到 p 的最小 token 集中采样
- 自适应地调整候选集大小
Temperature sampling： $P_t(y_t=w) = \frac{\exp(s_w/\tau)}{\sum \exp(s_{w'}/\tau)}$ $P_{t} (y_{t} = w) = \frac{e x p ( s _{w} / τ )}{\sum e x p ( s _{w^{'}} / τ )}$
- $\tau > 1$ ：更均匀（更多样化）
- $\tau < 1$ ：更尖锐（更确定）
- 温度是超参数，可与任何采样/搜索方法组合

何时用 Greedy vs Sampling

Greedy：确定答案的任务（数学、代码、事实 QA）
Sampling：开放式生成（创作、对话、长 CoT 推理）
Best-of-N Sampling：采样 N 个输出，用 reward model 选最好的（rejection sampling）

推理模型中的循环问题（2025）

推理 LLM 的循环不是边缘情况（AIME 上 30-gram 重复 >20 次）
小模型更容易循环、低温更容易循环、难题更容易循环
循环更加微妙：语义级别重复而非简单词汇重复

📐 主要解码策略的数学定义

Greedy Decoding：

$y_t = \arg\max_{w} P(w \mid y_{<t}, x)$

Beam Search（束宽 $b$ ，带长度归一化）：

$\text{score}(y_{1:t}) = \frac{1}{t} \sum_{i=1}^{t} \log P(y_i \mid y_{<i}, x)$

每步保留联合分数最高的 $b$ 条路径，最终从 $b$ 条完整序列中选最优。

Temperature Sampling：

$P_\tau(w \mid y_{<t}) = \frac{\exp(\text{logit}(w) / \tau)}{\sum_{w'} \exp(\text{logit}(w') / \tau)}$

$\tau \to 0$ ：趋向 greedy（最确定）； $\tau \to \infty$ ：趋向均匀（最随机）； $\tau = 1$ ：原始分布

Top-p (Nucleus) Sampling：

$\text{nucleus}(p) = \min\{w_{(1)}, \ldots, w_{(k)}\} \quad \text{s.t.} \quad \sum_{i=1}^k P(w_{(i)}) \ge p$

按概率降序排列词汇，取累积概率刚超过 $p$ 的最小集合，再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 $k$ 小，分布平坦时 $k$ 大。

📚 已收录至拓展阅读知识库

🔢 Beam Search（ $b=3$ ）一步展开示例

当前维护 3 条假设（平均 log prob 分数）：

假设	当前文本	分数
H1	”The cat”	-0.50
H2	”A dog”	-0.80
H3	”The dog”	-0.90

下一步 top-3 扩展词：sat (-0.7)、ran (-1.0)、jumped (-1.3)

展开 $3 \times 3 = 9$ 条路径，取累积分数最高的 3 条继续。长度归一化防止模型偏好短序列。

⚠️ 常见误区

误区：Beam Search 总是比 Greedy 好 → 正确：Beam Search 生成文本往往”太完美”但缺乏多样性，容易产生重复。对话/创意写作应该用 sampling；翻译/代码生成用 beam search。
误区：Temperature 越高生成质量越好（“更有创意”） → 正确：Temperature 过高会让模型忽略语言建模学到的概率分布，产生不连贯的随机噪声。通常 $\tau \in [0.7, 1.0]$ 是创意任务的合理区间，超过 1.2 风险较大。

2. DeepSeek-R1 深度解析

R1-Zero：纯 RL 训练（无 SFT），从 base model 出发用 GRPO + 规则 reward
- 涌现出自主 CoT 推理、反思、验证行为
- 问题：可读性差、语言混杂
R1：先 cold-start SFT（少量高质量 CoT 数据），再 RL
- 多阶段流水线：Cold-start SFT -> RL -> Rejection Sampling SFT -> 第二轮 RL
R1-Distill：将 R1 的推理能力蒸馏到小模型（1.5B-70B）
- 蒸馏后的小模型在推理基准上超过同规模非蒸馏模型

📐 DeepSeek-R1 四阶段训练流程

Stage 1：Cold Start SFT

用少量（数千条）人工筛选的 (prompt, long CoT, answer) 做监督微调，目的是让模型学会基本的”思考”格式（<think>...</think> 标签结构），避免后续 RL 从完全混乱的输出起步。

Stage 2：RL for Reasoning（核心阶段）

使用 GRPO 做纯 RL 训练，奖励函数只依赖最终答案：

$r(y) = \begin{cases} 1.0 & \text{最终答案正确} \\ 0.0 & \text{最终答案错误} \\ 0.1 & \text{格式奖励（正确使用 </think> 标签）} \end{cases}$

关键：不使用 Process Reward Model（PRM），只验证最终结果。对于数学题用精确匹配，代码题用单元测试执行。

Stage 3：Rejection Sampling SFT

对 Stage 2 的模型大规模采样，过滤出高质量推理路径（答案正确 + CoT 合理），混合通用能力数据，重新做 SFT。这一步修复了 R1-Zero 的语言混杂问题。

Stage 4：General RLHF

在 Stage 3 的 SFT 模型上继续 RLHF，覆盖安全对齐、指令遵循等通用能力，得到最终的 R1。

📚 已收录至拓展阅读知识库

🔢 DeepSeek-R1 在 AIME 2024 上的对比

AIME 2024（美国邀请数学考试，极难）：

模型	类型	Pass@1
GPT-4o（2024-11）	非推理	9.3%
DeepSeek-V3	非推理	39.2%
o1-2024-12-17	推理	79.2%
DeepSeek-R1	推理	79.8%

R1 与 OpenAI o1 性能相当，但完全开源（模型权重 + 训练方法）。R1 比 V3 高出 40%+，体现了推理训练的巨大价值。

⚠️ 常见误区

误区：RL 让模型”从零学会推理” → 正确：RL 只能强化模型已有的推理能力，并引导模型更有效地探索正确推理路径。极小模型（<1B）即使做 RL 也无法涌现推理能力——base model 的容量是前提。
误区：R1 的成功可以直接复制到任意任务 → 正确：R1 的规则奖励（精确答案匹配）只适用于有明确正确答案的任务（数学、代码）。对于开放式对话、写作等任务，构建可靠的奖励信号极其困难，直接套用 R1 的方法论不可行。

3. PPO & GRPO & DAPO

PPO 解剖

4 个模型：Policy + Reference + Reward + Value
PPO-clip loss + KL penalty + Value MSE loss

GRPO

去掉 Value Model，用组内 reward 均值和标准差归一化 advantage
更简洁高效

DAPO（Decoupled Alignment and Policy Optimization）

多项改进：Clip-Higher、Dynamic Sampling、Token-level Loss、Overlong Reward Shaping

📐 PPO / GRPO / DAPO 核心差异

PPO（近端策略优化）——需要 4 个模型：

$J_{\text{PPO}} = \mathbb{E}\left[\min\left(\rho_t A_t,\ \text{clip}(\rho_t, 1-\epsilon, 1+\epsilon)\, A_t\right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\right]$

其中 $\rho_t = \pi_\theta(a_t|s_t) / \pi_{\text{old}}(a_t|s_t)$ 是重要性采样比， $A_t$ 由 GAE（广义优势估计）+ 价值网络计算。需要：策略网络、参考模型、奖励模型、价值网络（4 个）。

GRPO（组相对策略优化）——去掉价值网络，只需 2 个模型：

对同一问题 $x$ 采样 $G$ 个回答 $\{y_1, \ldots, y_G\}$ ，用组内统计替代价值网络：

$A_i = \frac{r_i - \mu_G}{\sigma_G + \varepsilon}, \quad J_{\text{GRPO}} = \mathbb{E}\left[\min(\rho_i A_i,\ \text{clip}(\rho_i, 1\pm\epsilon)\,A_i) - \beta D_{\text{KL}}\right]$

DAPO（动态采样策略优化）——解决 GRPO 的 entropy collapse：

GRPO 训练后期模型探索不足（总是采样相似回答， $\sigma_G \to 0$ ，梯度消失）。DAPO 引入：

Clip-Higher：上下界不对称（ $[1-\epsilon_l, 1+\epsilon_h]$ ， $\epsilon_h > \epsilon_l$ ），鼓励探索
Dynamic Sampling：过滤掉全对/全错的 batch（ $\sigma_G=0$ ，梯度为零，纯浪费计算）
Token-level Loss：loss 按 token 平均而非按序列平均，避免短序列主导梯度

📚 已收录至拓展阅读知识库

🔢 GRPO 采样计算示例

问题 $x$ ：“2的10次方是多少？“，采样 $G=4$ 个回答：

回答	是否正确	$r_i$
$y_1$ ：1024，正确	✓	1.0
$y_2$ ：512，错误	✗	0.0
$y_3$ ：1024，正确	✓	1.0
$y_4$ ：2048，错误	✗	0.0

$\mu_G = 0.5$ ， $\sigma_G = 0.5$

归一化优势： $A_1 = A_3 = +1.0$ ， $A_2 = A_4 = -1.0$

梯度方向：增大 $y_1, y_3$ 的概率，减小 $y_2, y_4$ 的概率。

Dynamic Sampling 的意义：若 4 个回答全对（ $r_i=1,\sigma_G=0$ ）， $A_i=0$ ，梯度为零，GRPO 会浪费这个 batch 的计算。DAPO 直接跳过此类 batch，从更有信息量的问题中学习。

⚠️ 常见误区

误区： $G$ （每问题采样数）越大越好 → 正确： $G$ 太小（ $G=2$ ）方差大， $G$ 太大（ $G=16+$ ）计算代价高且边际收益递减。实践中 $G \in \{8, 16\}$ 是常用值，需要在计算预算和方差之间权衡。
误区：GRPO 完全取代 PPO → 正确：GRPO 去掉价值网络的代价是优势估计方差更大（只用组内统计，而非全局价值函数）。对于需要精细信用分配（credit assignment）的长序列任务，PPO 的价值网络仍有优势。

4. “推理” 的本质

什么有效、为什么有效、什么时候失败
LLM 的推理是否是真正的推理？还是模式匹配的高级形式？

📐 Chain-of-Thought 的概率论视角

标准语言模型：直接从输入 $x$ 预测答案 $y$ ：

$P(y \mid x) = \pi_{LM}(y \mid x)$

CoT 语言模型：显式生成中间推理步骤 $z$ （思维链），再预测答案：

$P(y \mid x) = \sum_{z} P(y, z \mid x) = \sum_{z} P(y \mid z, x) \cdot P(z \mid x)$

实践中取单条 CoT 路径的近似： $P(y \mid x) \approx P(y \mid \hat{z}, x)$ ，其中 $\hat{z}$ 是模型自回归生成的推理链。

Token Budget 视角：推理链 $z$ 占用 $|z|$ 个 token，每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。

CoT 本质上是用推理时计算（inference-time compute）弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。

📚 已收录至拓展阅读知识库

🔢 CoT 效果数值示例

任务	无 CoT	有 CoT	增益
GSM8K（小学数学，Gemini 1.5 Pro）	84.1%	96.2%	+12.1%
MATH（竞赛数学，Gemini 1.5 Pro）	49.9%	71.5%	+21.6%
TriviaQA（事实问答）	~78%	~79%	+1%（几乎无增益）

规律：需要多步推导的任务（数学、逻辑）CoT 增益显著；直接检索式任务（事实问答）几乎无增益甚至有害。

⚠️ 常见误区

误区：CoT 对所有任务都有帮助 → 正确：对简单问题（事实查询、常识问答），CoT 有时引入错误。让模型”想太多”可能导致 overthinking——模型在推理链中推翻了原本正确的直觉答案。Anthropic 的研究发现，Claude 在某些简单算术上加 CoT 反而更容易出错。
误区：更长的推理链一定更好 → 正确：推理链过长会出现 entropy collapse（重复、循环）、偏离原始问题。DeepSeek-R1 和 Gemini 的报告都发现存在最优推理长度，超过后性能下降。推理时计算存在边际收益递减。

L12: Reasoning 1/2

L12: Reasoning 1/2

Slides

中英交替版（推荐）

英文原版

中文翻译版

核心知识点

1. 解码技术（Decoding Techniques）

基础解码算法

神经文本退化（Neural Text Degeneration）

采样方法

何时用 Greedy vs Sampling

推理模型中的循环问题（2025）

📐 主要解码策略的数学定义

🔢 Beam Search（ $b=3$ ）一步展开示例

⚠️ 常见误区

2. DeepSeek-R1 深度解析

📐 DeepSeek-R1 四阶段训练流程

🔢 DeepSeek-R1 在 AIME 2024 上的对比

⚠️ 常见误区

3. PPO & GRPO & DAPO

PPO 解剖

GRPO

DAPO（Decoupled Alignment and Policy Optimization）

📐 PPO / GRPO / DAPO 核心差异

🔢 GRPO 采样计算示例

⚠️ 常见误区

4. “推理” 的本质

📐 Chain-of-Thought 的概率论视角

🔢 CoT 效果数值示例

⚠️ 常见误区

推荐阅读

关联概念

个人笔记

L12: Reasoning 1/2

L12: Reasoning 1/2

Slides

中英交替版（推荐）

英文原版

中文翻译版

核心知识点

1. 解码技术（Decoding Techniques）

基础解码算法

神经文本退化（Neural Text Degeneration）

采样方法

何时用 Greedy vs Sampling

推理模型中的循环问题（2025）

📐 主要解码策略的数学定义

🔢 Beam Search（b=3b=3b=3）一步展开示例

⚠️ 常见误区

2. DeepSeek-R1 深度解析

📐 DeepSeek-R1 四阶段训练流程

🔢 DeepSeek-R1 在 AIME 2024 上的对比

⚠️ 常见误区

3. PPO & GRPO & DAPO

PPO 解剖

GRPO

DAPO（Decoupled Alignment and Policy Optimization）

📐 PPO / GRPO / DAPO 核心差异

🔢 GRPO 采样计算示例

⚠️ 常见误区

4. “推理” 的本质

📐 Chain-of-Thought 的概率论视角

🔢 CoT 效果数值示例

⚠️ 常见误区

推荐阅读

关联概念

个人笔记

🔢 Beam Search（ $b=3$ ）一步展开示例