A4: LLM Evaluation & Red-Teaming
A4: LLM Evaluation & Red-Teaming
作业内容
Part 1: LLM Benchmarking
- 设计和运行 LLM 评估 benchmark
- 比较不同模型在标准任务上的表现
- 分析 benchmark 的局限性与 gaming 问题
Part 2: LLM-as-Judge
- 使用 LLM 作为评估器评判模型输出质量
- 分析 LLM judge 的偏见(position bias, verbosity bias)
- 与人类评估的一致性对比
Part 3: Red-Teaming
- 设计对抗性输入探测 LLM 的弱点
- Jailbreak 攻击与防御策略
- 安全性评估与报告撰写
相关讲座
关联概念
完成记录
- date-started::
- date-completed::
- difficulty::
- notes::