Emergence

分类: 基础理论

Emergence

定义

涌现能力（Emergent Abilities）指大语言模型在规模达到某个阈值后突然表现出的、在小模型中不存在的能力，如 few-shot 推理、思维链推理、代码生成等。这一现象挑战了”能力随规模平滑增长”的预期

数学形式

经典描述（Wei et al., 2022）：对于某些任务，模型性能 $P(s)$ 作为模型规模 $s$ 的函数呈现相变行为： $P(s) \approx \begin{cases} P_{\text{random}} & s < s_{\text{critical}} \\ P_{\text{good}} & s \geq s_{\text{critical}} \end{cases}$

Schaeffer et al. (2023) 的反驳观点认为，涌现可能是评估指标的非线性（如 exact match）造成的度量假象：换用连续指标后，性能随规模平滑增长

核心要点

经典涌现案例：few-shot ICL（~100B 参数出现）、Chain-of-Thought 推理（~100B）、multi-step 算术推理

Scaling Laws（Kaplan et al., 2020; Chinchilla, 2022）：loss 随计算量、数据量、模型参数的幂律下降是平滑的，但下游任务评估指标可能不平滑

“涌现是幻觉”争议（Schaeffer et al., 2023）：用 token-level 的连续指标评估时，很多看似涌现的能力实际上是平滑增长的——不连续性来自离散评估指标

实际意义：无论涌现是否是度量假象，大模型确实展现出小模型不具备的质变级别的能力（如 GPT-4 通过律师资格考试）

Grokking：另一种形式的涌现——过拟合很久后突然泛化，可能与涌现共享底层机制

CS224N 讨论 LLM 能力边界与 scaling 时的核心概念

代表工作

Wei et al., 2022: Emergent Abilities of Large Language Models

Schaeffer et al., 2023: Are Emergent Abilities of Large Language Models a Mirage?

Kaplan et al., 2020: Scaling Laws for Neural Language Models

Emergence

Emergence

定义

数学形式

核心要点

代表工作

相关概念