A4: LLM Evaluation & Red-Teaming

A4: LLM Evaluation & Red-Teaming

作业内容

Part 1: LLM Benchmarking

  • 设计和运行 LLM 评估 benchmark
  • 比较不同模型在标准任务上的表现
  • 分析 benchmark 的局限性与 gaming 问题

Part 2: LLM-as-Judge

  • 使用 LLM 作为评估器评判模型输出质量
  • 分析 LLM judge 的偏见(position bias, verbosity bias)
  • 与人类评估的一致性对比

Part 3: Red-Teaming

  • 设计对抗性输入探测 LLM 的弱点
  • Jailbreak 攻击与防御策略
  • 安全性评估与报告撰写

相关讲座

关联概念

完成记录

  • date-started::
  • date-completed::
  • difficulty::
  • notes::