How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

作者: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelvin Luu, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi 年份: 2023 会议: NeurIPS 分类: 训练优化

论文笔记：How-Far-Camels

一句话总结

系统评估了开源指令微调数据集、基座模型和训练方法的各种组合，发现数据质量和多样性比数量更重要，并发布了 Tulu 系列模型。

核心贡献

全面消融实验：在 LLaMA 系列基座上，对比 FLAN V2、CoT、Dolly、Open Assistant、ShareGPT 等 12+ 开源数据集的指令微调效果
数据混合策略：发现混合多个数据源（而非单一来源）效果最佳，且 ShareGPT 等对话型数据对 chatbot 评测贡献最大，FLAN 对传统 NLP benchmark 贡献最大
模型规模效应：在 6.7B-65B 参数范围内，更大的基座模型一致性地在指令微调后表现更好，但小模型配合高质量数据也能有出色表现
Tulu 模型：发布 Tulu 系列开源指令微调模型，在多项评测上与 ChatGPT 和其他闭源模型竞争力强

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

论文笔记：How-Far-Camels

一句话总结

核心贡献

相关概念