CS224N / 学习笔记

#CS224N-assignment #LLM-evaluation #benchmarking #red-teaming

A4: LLM Evaluation & Red-Teaming

A4: LLM Evaluation & Red-Teaming

作业内容

Part 1: LLM Benchmarking

设计和运行 LLM 评估 benchmark
比较不同模型在标准任务上的表现
分析 benchmark 的局限性与 gaming 问题

Part 2: LLM-as-Judge

使用 LLM 作为评估器评判模型输出质量
分析 LLM judge 的偏见（position bias, verbosity bias）
与人类评估的一致性对比

Part 3: Red-Teaming

设计对抗性输入探测 LLM 的弱点
Jailbreak 攻击与防御策略
安全性评估与报告撰写

相关讲座

L11 Evaluation, L08 Post-training

关联概念

完成记录

date-started::
date-completed::
difficulty::
notes::