Holistic Evaluation of Language Models
作者: Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, et al. 年份: 2022 会议: TMLR 分类: 数据集与评估
论文笔记:HELM
一句话总结
- 提出 HELM 框架,从准确性、校准度、鲁棒性、公平性、偏见、毒性、效率 7 个维度全面评估 30+ 语言模型在 42 个场景下的表现,建立了多维度评测的标杆。
核心贡献
- 多维评估框架:超越单一准确率指标,定义了 7 大评估维度(accuracy, calibration, robustness, fairness, bias, toxicity, efficiency),每个场景生成多维”雷达图”
- 大规模评测:覆盖 42 个评测场景(问答、摘要、信息检索、情感分析、毒性检测等)× 30+ 模型(GPT-3、PaLM、BLOOM、OPT 等),超过 20 亿 token 的推理量
- 标准化评测协议:统一了 prompt 格式、解码策略、评测指标,使跨模型比较更加公平,避免了各自论文中 cherry-picking 评测设置的问题
- 透明排行榜:提供公开的在线排行榜(crfm.stanford.edu/helm),持续更新模型评估结果,促进社区透明度
相关概念
- NLP评测
- MMLU
- 模型偏见
- 校准度
- 鲁棒性
- 大语言模型