How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
作者: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelvin Luu, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi 年份: 2023 会议: NeurIPS 分类: 训练优化
论文笔记:How-Far-Camels
一句话总结
- 系统评估了开源指令微调数据集、基座模型和训练方法的各种组合,发现数据质量和多样性比数量更重要,并发布了 Tulu 系列模型。
核心贡献
- 全面消融实验:在 LLaMA 系列基座上,对比 FLAN V2、CoT、Dolly、Open Assistant、ShareGPT 等 12+ 开源数据集的指令微调效果
- 数据混合策略:发现混合多个数据源(而非单一来源)效果最佳,且 ShareGPT 等对话型数据对 chatbot 评测贡献最大,FLAN 对传统 NLP benchmark 贡献最大
- 模型规模效应:在 6.7B-65B 参数范围内,更大的基座模型一致性地在指令微调后表现更好,但小模型配合高质量数据也能有出色表现
- Tulu 模型:发布 Tulu 系列开源指令微调模型,在多项评测上与 ChatGPT 和其他闭源模型竞争力强
相关概念
- 指令微调
- LLaMA
- FLAN
- 数据质量
- 开源LLM