Scaling Instruction-Finetuned Language Models

作者: Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. 年份: 2022 会议: arXiv 分类: 训练优化

论文笔记：Scaling-Instruction-FT

一句话总结

系统研究指令微调（instruction finetuning）的 scaling 特性，发现增加任务数量、模型规模和 chain-of-thought 数据均能持续提升模型在 held-out 任务上的泛化能力，产出 Flan-T5 和 Flan-PaLM。

核心贡献

大规模指令微调：将指令微调扩展到 1,836 个任务（Flan 数据集合集），涵盖 NLU、NLG、推理、对话等多种类型
Scaling 三维度：实验证明（1）更多任务、（2）更大模型、（3）加入 CoT 数据——三个维度的 scaling 均带来显著收益
Flan-T5 / Flan-PaLM：基于 T5 和 PaLM 的指令微调版本，在 MMLU、BBH、TyDiQA 等基准上大幅优于原始模型，Flan-PaLM 540B 在多项任务上达到 SOTA
CoT 微调：首次将 chain-of-thought 推理数据纳入指令微调，使模型在零样本推理任务上也能生成推理链，而非仅给出答案

Scaling Instruction-Finetuned Language Models

论文笔记：Scaling-Instruction-FT

一句话总结

核心贡献

相关概念