Emergence
分类: 基础理论
Emergence
定义
涌现能力(Emergent Abilities)指大语言模型在规模达到某个阈值后突然表现出的、在小模型中不存在的能力,如 few-shot 推理、思维链推理、代码生成等。这一现象挑战了”能力随规模平滑增长”的预期
数学形式
经典描述(Wei et al., 2022):对于某些任务,模型性能 作为模型规模 的函数呈现相变行为:
Schaeffer et al. (2023) 的反驳观点认为,涌现可能是评估指标的非线性(如 exact match)造成的度量假象:换用连续指标后,性能随规模平滑增长
核心要点
经典涌现案例:few-shot ICL(~100B 参数出现)、Chain-of-Thought 推理(~100B)、multi-step 算术推理
Scaling Laws(Kaplan et al., 2020; Chinchilla, 2022):loss 随计算量、数据量、模型参数的幂律下降是平滑的,但下游任务评估指标可能不平滑
“涌现是幻觉”争议(Schaeffer et al., 2023):用 token-level 的连续指标评估时,很多看似涌现的能力实际上是平滑增长的——不连续性来自离散评估指标
实际意义:无论涌现是否是度量假象,大模型确实展现出小模型不具备的质变级别的能力(如 GPT-4 通过律师资格考试)
Grokking:另一种形式的涌现——过拟合很久后突然泛化,可能与涌现共享底层机制
CS224N 讨论 LLM 能力边界与 scaling 时的核心概念
代表工作
Wei et al., 2022: Emergent Abilities of Large Language Models
Schaeffer et al., 2023: Are Emergent Abilities of Large Language Models a Mirage?
Kaplan et al., 2020: Scaling Laws for Neural Language Models