In-Context Learning
分类: 基础理论
In-Context Learning
定义
上下文学习是大语言模型无需更新参数,仅通过在输入上下文中提供少量示例(demonstration)即可完成新任务的能力,是大模型规模化后涌现的核心能力之一。
核心要点
与传统 Fine-tuning 的根本区别:ICL 不更新模型参数,任务定义完全通过 prompt 中的示例传递
三种模式:zero-shot(无示例,仅任务描述)、few-shot(少量输入-输出示例)、many-shot(大量示例)
GPT-3 (Brown et al., 2020) 首次系统展示了 ICL 能力,表明足够大的语言模型可以作为 few-shot learner
ICL 性能对示例的格式、顺序和选择高度敏感——相同的示例不同排列可能导致性能差异巨大
理论解释尚未定论,主要假说包括:
- 隐式贝叶斯推断(Xie et al., 2022)
- Transformer 隐式实现梯度下降(Akyürek et al., 2023; von Oswald et al., 2023)
- 任务识别而非任务学习(Pan et al., 2023)
ICL 能力与 Scaling Laws 密切相关,通常在模型超过一定规模(约 6B+ 参数)后才稳定涌现
代表工作
Brown et al. (2020): “Language Models are Few-Shot Learners” (GPT-3, NeurIPS 2020),系统展示 ICL
Xie et al. (2022): “An Explanation of In-context Learning as Implicit Bayesian Inference” (ICLR 2022)
Akyürek et al. (2023): “What learning algorithm is in-context learning? Investigations with linear models” (ICLR 2023)
Min et al. (2022): “Rethinking the Role of Demonstrations”,发现 ICL 主要依赖标签空间和输入分布,而非输入-标签映射