Language Models are Few-Shot Learners

作者: Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 年份: 2020 会议: NeurIPS 分类: 基础理论

论文笔记：Few-Shot-Learners

一句话总结

展示了 GPT-3（175B 参数）通过 in-context learning 仅需少量示例即可完成广泛 NLP 任务，无需梯度更新，开创了”大模型 + 少样本提示”的新范式。

核心贡献

In-Context Learning：发现足够大的语言模型可以在推理时通过 prompt 中的少量示例”学习”新任务，无需微调参数，这一能力随模型规模涌现
175B 参数规模：训练了当时最大的语言模型 GPT-3，在 45TB 文本语料上预训练，证明 scaling 带来质变（小模型几乎不具备 few-shot 能力）
三种评估范式：系统定义并对比了 zero-shot、one-shot、few-shot 三种 in-context learning 设置，为后续研究建立了标准评估框架
广泛任务覆盖：在翻译、问答、完形填空、算术等 20+ 任务类型上评估，部分任务（如新闻生成）的 few-shot 结果接近甚至超越微调模型

Language Models are Few-Shot Learners

论文笔记：Few-Shot-Learners

一句话总结

核心贡献

相关概念