Language Models are Few-Shot Learners

作者: Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 年份: 2020 会议: NeurIPS 分类: 基础理论

论文笔记:Few-Shot-Learners

一句话总结

  • 展示了 GPT-3(175B 参数)通过 in-context learning 仅需少量示例即可完成广泛 NLP 任务,无需梯度更新,开创了”大模型 + 少样本提示”的新范式。

核心贡献

  • In-Context Learning:发现足够大的语言模型可以在推理时通过 prompt 中的少量示例”学习”新任务,无需微调参数,这一能力随模型规模涌现
  • 175B 参数规模:训练了当时最大的语言模型 GPT-3,在 45TB 文本语料上预训练,证明 scaling 带来质变(小模型几乎不具备 few-shot 能力)
  • 三种评估范式:系统定义并对比了 zero-shot、one-shot、few-shot 三种 in-context learning 设置,为后续研究建立了标准评估框架
  • 广泛任务覆盖:在翻译、问答、完形填空、算术等 20+ 任务类型上评估,部分任务(如新闻生成)的 few-shot 结果接近甚至超越微调模型

相关概念