In-Context Learning

分类: 基础理论

定义

上下文学习是大语言模型无需更新参数，仅通过在输入上下文中提供少量示例（demonstration）即可完成新任务的能力，是大模型规模化后涌现的核心能力之一。

与传统 Fine-tuning 的根本区别：ICL 不更新模型参数，任务定义完全通过 prompt 中的示例传递

三种模式：zero-shot（无示例，仅任务描述）、few-shot（少量输入-输出示例）、many-shot（大量示例）

GPT-3 (Brown et al., 2020) 首次系统展示了 ICL 能力，表明足够大的语言模型可以作为 few-shot learner

ICL 性能对示例的格式、顺序和选择高度敏感——相同的示例不同排列可能导致性能差异巨大

理论解释尚未定论，主要假说包括：

ICL 能力与 Scaling Laws 密切相关，通常在模型超过一定规模（约 6B+ 参数）后才稳定涌现

Brown et al. (2020): “Language Models are Few-Shot Learners” (GPT-3, NeurIPS 2020)，系统展示 ICL

Xie et al. (2022): “An Explanation of In-context Learning as Implicit Bayesian Inference” (ICLR 2022)

Akyürek et al. (2023): “What learning algorithm is in-context learning? Investigations with linear models” (ICLR 2023)

Min et al. (2022): “Rethinking the Role of Demonstrations”，发现 ICL 主要依赖标签空间和输入分布，而非输入-标签映射