Holistic Evaluation of Language Models

作者: Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, et al. 年份: 2022 会议: TMLR 分类: 数据集与评估

论文笔记:HELM

一句话总结

  • 提出 HELM 框架,从准确性、校准度、鲁棒性、公平性、偏见、毒性、效率 7 个维度全面评估 30+ 语言模型在 42 个场景下的表现,建立了多维度评测的标杆。

核心贡献

  • 多维评估框架:超越单一准确率指标,定义了 7 大评估维度(accuracy, calibration, robustness, fairness, bias, toxicity, efficiency),每个场景生成多维”雷达图”
  • 大规模评测:覆盖 42 个评测场景(问答、摘要、信息检索、情感分析、毒性检测等)× 30+ 模型(GPT-3、PaLM、BLOOM、OPT 等),超过 20 亿 token 的推理量
  • 标准化评测协议:统一了 prompt 格式、解码策略、评测指标,使跨模型比较更加公平,避免了各自论文中 cherry-picking 评测设置的问题
  • 透明排行榜:提供公开的在线排行榜(crfm.stanford.edu/helm),持续更新模型评估结果,促进社区透明度

相关概念

  • NLP评测
  • MMLU
  • 模型偏见
  • 校准度
  • 鲁棒性
  • 大语言模型