Scaling Instruction-Finetuned Language Models
作者: Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. 年份: 2022 会议: arXiv 分类: 训练优化
论文笔记:Scaling-Instruction-FT
一句话总结
- 系统研究指令微调(instruction finetuning)的 scaling 特性,发现增加任务数量、模型规模和 chain-of-thought 数据均能持续提升模型在 held-out 任务上的泛化能力,产出 Flan-T5 和 Flan-PaLM。
核心贡献
- 大规模指令微调:将指令微调扩展到 1,836 个任务(Flan 数据集合集),涵盖 NLU、NLG、推理、对话等多种类型
- Scaling 三维度:实验证明(1)更多任务、(2)更大模型、(3)加入 CoT 数据——三个维度的 scaling 均带来显著收益
- Flan-T5 / Flan-PaLM:基于 T5 和 PaLM 的指令微调版本,在 MMLU、BBH、TyDiQA 等基准上大幅优于原始模型,Flan-PaLM 540B 在多项任务上达到 SOTA
- CoT 微调:首次将 chain-of-thought 推理数据纳入指令微调,使模型在零样本推理任务上也能生成推理链,而非仅给出答案
相关概念
- 指令微调
- Chain-of-Thought
- T5
- PaLM
- Scaling Law
- 零样本泛化