Holistic Evaluation of Language Models

作者: Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, et al. 年份: 2022 会议: TMLR 分类: 数据集与评估

论文笔记：HELM

一句话总结

提出 HELM 框架，从准确性、校准度、鲁棒性、公平性、偏见、毒性、效率 7 个维度全面评估 30+ 语言模型在 42 个场景下的表现，建立了多维度评测的标杆。

核心贡献

多维评估框架：超越单一准确率指标，定义了 7 大评估维度（accuracy, calibration, robustness, fairness, bias, toxicity, efficiency），每个场景生成多维”雷达图”
大规模评测：覆盖 42 个评测场景（问答、摘要、信息检索、情感分析、毒性检测等）× 30+ 模型（GPT-3、PaLM、BLOOM、OPT 等），超过 20 亿 token 的推理量
标准化评测协议：统一了 prompt 格式、解码策略、评测指标，使跨模型比较更加公平，避免了各自论文中 cherry-picking 评测设置的问题
透明排行榜：提供公开的在线排行榜（crfm.stanford.edu/helm），持续更新模型评估结果，促进社区透明度

Holistic Evaluation of Language Models

论文笔记：HELM

一句话总结

核心贡献

相关概念