In-Context Learning

分类: 基础理论

In-Context Learning

定义

上下文学习是大语言模型无需更新参数,仅通过在输入上下文中提供少量示例(demonstration)即可完成新任务的能力,是大模型规模化后涌现的核心能力之一。

核心要点

与传统 Fine-tuning 的根本区别:ICL 不更新模型参数,任务定义完全通过 prompt 中的示例传递

三种模式:zero-shot(无示例,仅任务描述)、few-shot(少量输入-输出示例)、many-shot(大量示例)

GPT-3 (Brown et al., 2020) 首次系统展示了 ICL 能力,表明足够大的语言模型可以作为 few-shot learner

ICL 性能对示例的格式、顺序和选择高度敏感——相同的示例不同排列可能导致性能差异巨大

理论解释尚未定论,主要假说包括:

  • 隐式贝叶斯推断(Xie et al., 2022)
  • Transformer 隐式实现梯度下降(Akyürek et al., 2023; von Oswald et al., 2023)
  • 任务识别而非任务学习(Pan et al., 2023)

ICL 能力与 Scaling Laws 密切相关,通常在模型超过一定规模(约 6B+ 参数)后才稳定涌现

代表工作

Brown et al. (2020): “Language Models are Few-Shot Learners” (GPT-3, NeurIPS 2020),系统展示 ICL

Xie et al. (2022): “An Explanation of In-context Learning as Implicit Bayesian Inference” (ICLR 2022)

Akyürek et al. (2023): “What learning algorithm is in-context learning? Investigations with linear models” (ICLR 2023)

Min et al. (2022): “Rethinking the Role of Demonstrations”,发现 ICL 主要依赖标签空间和输入分布,而非输入-标签映射

相关概念

Chain-of-Thought

Scaling Laws

Language Model

Prompt Tuning

Fine-tuning

Pretraining