Language Models are Few-Shot Learners
作者: Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 年份: 2020 会议: NeurIPS 分类: 基础理论
论文笔记:Few-Shot-Learners
一句话总结
- 展示了 GPT-3(175B 参数)通过 in-context learning 仅需少量示例即可完成广泛 NLP 任务,无需梯度更新,开创了”大模型 + 少样本提示”的新范式。
核心贡献
- In-Context Learning:发现足够大的语言模型可以在推理时通过 prompt 中的少量示例”学习”新任务,无需微调参数,这一能力随模型规模涌现
- 175B 参数规模:训练了当时最大的语言模型 GPT-3,在 45TB 文本语料上预训练,证明 scaling 带来质变(小模型几乎不具备 few-shot 能力)
- 三种评估范式:系统定义并对比了 zero-shot、one-shot、few-shot 三种 in-context learning 设置,为后续研究建立了标准评估框架
- 广泛任务覆盖:在翻译、问答、完形填空、算术等 20+ 任务类型上评估,部分任务(如新闻生成)的 few-shot 结果接近甚至超越微调模型
相关概念
- GPT-3
- In-Context Learning
- Few-Shot Learning
- Scaling Law
- 大语言模型
- Prompt Engineering