L12: Reasoning 1/2

Week 6 · Thu Feb 12 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)
下载 PDF
/ 0
100%
正在加载 PDF...

L12: Reasoning 1/2

  • Lecturer: Yejin Choi

Slides

中英交替版(推荐)

L12 双语 (PDF)

英文原版

L12 EN (PDF)

中文翻译版

L12 ZH (PDF)

核心知识点

1. 解码技术(Decoding Techniques)

基础解码算法

Slide 1
Slide 1
Slide 2
Slide 2
Slide 3
Slide 3
  • Greedy decoding:每步选最高概率 token,局部最优但可能全局次优
  • Beam search:保持 top-k 个候选序列,经典 NLP 标准方法,但现代 LLM 较少使用
  • Beam search (k=1) = Greedy decoding

神经文本退化(Neural Text Degeneration)

Slide 4 Slide 5 Slide 6 Slide 7
  • Holtzman et al., 2019: 最可能的序列往往重复退化
  • Beam search 生成重复文本,纯采样生成不连贯文本
  • 重复越多越可能:陷入重复循环后概率持续上升

采样方法

Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13
  • Top-k sampling(Fan et al., 2018):只从概率最高的 k 个 token 中采样
    • 问题:对平坦分布截断太快,对尖锐分布截断太慢
  • Top-p (Nucleus) sampling(Holtzman et al., 2019):从累积概率达到 p 的最小 token 集中采样
    • 自适应地调整候选集大小
  • Temperature samplingPt(yt=w)=exp(sw/τ)exp(sw/τ)P_t(y_t=w) = \frac{\exp(s_w/\tau)}{\sum \exp(s_{w'}/\tau)}
    • τ>1\tau > 1:更均匀(更多样化)
    • τ<1\tau < 1:更尖锐(更确定)
    • 温度是超参数,可与任何采样/搜索方法组合

何时用 Greedy vs Sampling

Slide 14 Slide 15 Slide 16 Slide 17 Slide 18
  • Greedy:确定答案的任务(数学、代码、事实 QA)
  • Sampling:开放式生成(创作、对话、长 CoT 推理)
  • Best-of-N Sampling:采样 N 个输出,用 reward model 选最好的(rejection sampling)

推理模型中的循环问题(2025)

Slide 19
Slide 19
Slide 20
Slide 20
Slide 21
Slide 21
  • 推理 LLM 的循环不是边缘情况(AIME 上 30-gram 重复 >20 次)
  • 小模型更容易循环、低温更容易循环、难题更容易循环
  • 循环更加微妙:语义级别重复而非简单词汇重复

📐 主要解码策略的数学定义

Greedy Decoding

yt=argmaxwP(wy<t,x)y_t = \arg\max_{w} P(w \mid y_{<t}, x)

Beam Search(束宽 bb,带长度归一化):

score(y1:t)=1ti=1tlogP(yiy<i,x)\text{score}(y_{1:t}) = \frac{1}{t} \sum_{i=1}^{t} \log P(y_i \mid y_{<i}, x)

每步保留联合分数最高的 bb 条路径,最终从 bb 条完整序列中选最优。

Temperature Sampling

Pτ(wy<t)=exp(logit(w)/τ)wexp(logit(w)/τ)P_\tau(w \mid y_{<t}) = \frac{\exp(\text{logit}(w) / \tau)}{\sum_{w'} \exp(\text{logit}(w') / \tau)}

  • τ0\tau \to 0:趋向 greedy(最确定);τ\tau \to \infty:趋向均匀(最随机);τ=1\tau = 1:原始分布

Top-p (Nucleus) Sampling

nucleus(p)=min{w(1),,w(k)}s.t.i=1kP(w(i))p\text{nucleus}(p) = \min\{w_{(1)}, \ldots, w_{(k)}\} \quad \text{s.t.} \quad \sum_{i=1}^k P(w_{(i)}) \ge p

按概率降序排列词汇,取累积概率刚超过 pp 的最小集合,再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 kk 小,分布平坦时 kk 大。

📚 已收录至 拓展阅读知识库

🔢 Beam Search(b=3b=3)一步展开示例

当前维护 3 条假设(平均 log prob 分数):

假设当前文本分数
H1”The cat”-0.50
H2”A dog”-0.80
H3”The dog”-0.90

下一步 top-3 扩展词:sat (-0.7)、ran (-1.0)、jumped (-1.3)

展开 3×3=93 \times 3 = 9 条路径,取累积分数最高的 3 条继续。长度归一化防止模型偏好短序列。

⚠️ 常见误区

  1. 误区:Beam Search 总是比 Greedy 好 → 正确:Beam Search 生成文本往往”太完美”但缺乏多样性,容易产生重复。对话/创意写作应该用 sampling;翻译/代码生成用 beam search。
  2. 误区:Temperature 越高生成质量越好(“更有创意”) → 正确:Temperature 过高会让模型忽略语言建模学到的概率分布,产生不连贯的随机噪声。通常 τ[0.7,1.0]\tau \in [0.7, 1.0] 是创意任务的合理区间,超过 1.2 风险较大。

2. DeepSeek-R1 深度解析

Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30 Slide 31 Slide 32 Slide 33 Slide 34 Slide 35
  • R1-Zero:纯 RL 训练(无 SFT),从 base model 出发用 GRPO + 规则 reward
    • 涌现出自主 CoT 推理、反思、验证行为
    • 问题:可读性差、语言混杂
  • R1:先 cold-start SFT(少量高质量 CoT 数据),再 RL
    • 多阶段流水线:Cold-start SFT -> RL -> Rejection Sampling SFT -> 第二轮 RL
  • R1-Distill:将 R1 的推理能力蒸馏到小模型(1.5B-70B)
    • 蒸馏后的小模型在推理基准上超过同规模非蒸馏模型

📐 DeepSeek-R1 四阶段训练流程

Stage 1:Cold Start SFT

用少量(数千条)人工筛选的 (prompt, long CoT, answer) 做监督微调,目的是让模型学会基本的”思考”格式(<think>...</think> 标签结构),避免后续 RL 从完全混乱的输出起步。

Stage 2:RL for Reasoning(核心阶段)

使用 GRPO 做纯 RL 训练,奖励函数只依赖最终答案:

r(y)={1.0最终答案正确0.0最终答案错误0.1格式奖励(正确使用 </think> 标签)r(y) = \begin{cases} 1.0 & \text{最终答案正确} \\ 0.0 & \text{最终答案错误} \\ 0.1 & \text{格式奖励(正确使用 </think> 标签)} \end{cases}

关键:不使用 Process Reward Model(PRM),只验证最终结果。对于数学题用精确匹配,代码题用单元测试执行。

Stage 3:Rejection Sampling SFT

对 Stage 2 的模型大规模采样,过滤出高质量推理路径(答案正确 + CoT 合理),混合通用能力数据,重新做 SFT。这一步修复了 R1-Zero 的语言混杂问题。

Stage 4:General RLHF

在 Stage 3 的 SFT 模型上继续 RLHF,覆盖安全对齐、指令遵循等通用能力,得到最终的 R1。

📚 已收录至 拓展阅读知识库

🔢 DeepSeek-R1 在 AIME 2024 上的对比

AIME 2024(美国邀请数学考试,极难):

模型类型Pass@1
GPT-4o(2024-11)非推理9.3%
DeepSeek-V3非推理39.2%
o1-2024-12-17推理79.2%
DeepSeek-R1推理79.8%

R1 与 OpenAI o1 性能相当,但完全开源(模型权重 + 训练方法)。R1 比 V3 高出 40%+,体现了推理训练的巨大价值。

⚠️ 常见误区

  1. 误区:RL 让模型”从零学会推理” → 正确:RL 只能强化模型已有的推理能力,并引导模型更有效地探索正确推理路径。极小模型(<1B)即使做 RL 也无法涌现推理能力——base model 的容量是前提。
  2. 误区:R1 的成功可以直接复制到任意任务 → 正确:R1 的规则奖励(精确答案匹配)只适用于有明确正确答案的任务(数学、代码)。对于开放式对话、写作等任务,构建可靠的奖励信号极其困难,直接套用 R1 的方法论不可行。

3. PPO & GRPO & DAPO

PPO 解剖

Slide 36 Slide 37 Slide 38 Slide 39 Slide 40
  • 4 个模型:Policy + Reference + Reward + Value
  • PPO-clip loss + KL penalty + Value MSE loss

GRPO

Slide 41 Slide 42 Slide 43 Slide 44 Slide 45
  • 去掉 Value Model,用组内 reward 均值和标准差归一化 advantage
  • 更简洁高效

DAPO(Decoupled Alignment and Policy Optimization)

Slide 46 Slide 47 Slide 48 Slide 49 Slide 50 Slide 51
  • 多项改进:Clip-Higher、Dynamic Sampling、Token-level Loss、Overlong Reward Shaping

📐 PPO / GRPO / DAPO 核心差异

PPO(近端策略优化)——需要 4 个模型:

JPPO=E[min(ρtAt, clip(ρt,1ϵ,1+ϵ)At)βDKL(πθπref)]J_{\text{PPO}} = \mathbb{E}\left[\min\left(\rho_t A_t,\ \text{clip}(\rho_t, 1-\epsilon, 1+\epsilon)\, A_t\right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\right]

其中 ρt=πθ(atst)/πold(atst)\rho_t = \pi_\theta(a_t|s_t) / \pi_{\text{old}}(a_t|s_t) 是重要性采样比,AtA_t 由 GAE(广义优势估计)+ 价值网络计算。需要:策略网络、参考模型、奖励模型、价值网络(4 个)。

GRPO(组相对策略优化)——去掉价值网络,只需 2 个模型:

对同一问题 xx 采样 GG 个回答 {y1,,yG}\{y_1, \ldots, y_G\},用组内统计替代价值网络:

Ai=riμGσG+ε,JGRPO=E[min(ρiAi, clip(ρi,1±ϵ)Ai)βDKL]A_i = \frac{r_i - \mu_G}{\sigma_G + \varepsilon}, \quad J_{\text{GRPO}} = \mathbb{E}\left[\min(\rho_i A_i,\ \text{clip}(\rho_i, 1\pm\epsilon)\,A_i) - \beta D_{\text{KL}}\right]

DAPO(动态采样策略优化)——解决 GRPO 的 entropy collapse:

GRPO 训练后期模型探索不足(总是采样相似回答,σG0\sigma_G \to 0,梯度消失)。DAPO 引入:

  • Clip-Higher:上下界不对称([1ϵl,1+ϵh][1-\epsilon_l, 1+\epsilon_h]ϵh>ϵl\epsilon_h > \epsilon_l),鼓励探索
  • Dynamic Sampling:过滤掉全对/全错的 batch(σG=0\sigma_G=0,梯度为零,纯浪费计算)
  • Token-level Loss:loss 按 token 平均而非按序列平均,避免短序列主导梯度

📚 已收录至 拓展阅读知识库

🔢 GRPO 采样计算示例

问题 xx:“2的10次方是多少?“,采样 G=4G=4 个回答:

回答是否正确rir_i
y1y_1:1024,正确1.0
y2y_2:512,错误0.0
y3y_3:1024,正确1.0
y4y_4:2048,错误0.0

μG=0.5\mu_G = 0.5σG=0.5\sigma_G = 0.5

归一化优势:A1=A3=+1.0A_1 = A_3 = +1.0A2=A4=1.0A_2 = A_4 = -1.0

梯度方向:增大 y1,y3y_1, y_3 的概率,减小 y2,y4y_2, y_4 的概率。

Dynamic Sampling 的意义:若 4 个回答全对(ri=1,σG=0r_i=1,\sigma_G=0),Ai=0A_i=0,梯度为零,GRPO 会浪费这个 batch 的计算。DAPO 直接跳过此类 batch,从更有信息量的问题中学习。

⚠️ 常见误区

  1. 误区GG(每问题采样数)越大越好 → 正确GG 太小(G=2G=2)方差大,GG 太大(G=16+G=16+)计算代价高且边际收益递减。实践中 G{8,16}G \in \{8, 16\} 是常用值,需要在计算预算和方差之间权衡。
  2. 误区:GRPO 完全取代 PPO → 正确:GRPO 去掉价值网络的代价是优势估计方差更大(只用组内统计,而非全局价值函数)。对于需要精细信用分配(credit assignment)的长序列任务,PPO 的价值网络仍有优势。

4. “推理” 的本质

Slide 52 Slide 53 Slide 54 Slide 55 Slide 56 Slide 57 Slide 58 Slide 59 Slide 60 Slide 61 Slide 62 Slide 63 Slide 64 Slide 65 Slide 66 Slide 67 Slide 68
  • 什么有效、为什么有效、什么时候失败
  • LLM 的推理是否是真正的推理?还是模式匹配的高级形式?

📐 Chain-of-Thought 的概率论视角

标准语言模型:直接从输入 xx 预测答案 yy

P(yx)=πLM(yx)P(y \mid x) = \pi_{LM}(y \mid x)

CoT 语言模型:显式生成中间推理步骤 zz(思维链),再预测答案:

P(yx)=zP(y,zx)=zP(yz,x)P(zx)P(y \mid x) = \sum_{z} P(y, z \mid x) = \sum_{z} P(y \mid z, x) \cdot P(z \mid x)

实践中取单条 CoT 路径的近似:P(yx)P(yz^,x)P(y \mid x) \approx P(y \mid \hat{z}, x),其中 z^\hat{z} 是模型自回归生成的推理链。

Token Budget 视角:推理链 zz 占用 z|z| 个 token,每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。

CoT 本质上是用推理时计算(inference-time compute)弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。

📚 已收录至 拓展阅读知识库

🔢 CoT 效果数值示例

任务无 CoT有 CoT增益
GSM8K(小学数学,Gemini 1.5 Pro)84.1%96.2%+12.1%
MATH(竞赛数学,Gemini 1.5 Pro)49.9%71.5%+21.6%
TriviaQA(事实问答)~78%~79%+1%(几乎无增益)

规律:需要多步推导的任务(数学、逻辑)CoT 增益显著;直接检索式任务(事实问答)几乎无增益甚至有害。

⚠️ 常见误区

  1. 误区:CoT 对所有任务都有帮助 → 正确:对简单问题(事实查询、常识问答),CoT 有时引入错误。让模型”想太多”可能导致 overthinking——模型在推理链中推翻了原本正确的直觉答案。Anthropic 的研究发现,Claude 在某些简单算术上加 CoT 反而更容易出错。
  2. 误区:更长的推理链一定更好 → 正确:推理链过长会出现 entropy collapse(重复、循环)、偏离原始问题。DeepSeek-R1 和 Gemini 的报告都发现存在最优推理长度,超过后性能下降。推理时计算存在边际收益递减。

推荐阅读

关联概念

个人笔记