CS224N / 学习笔记

Sycophancy

分类: 待分类

Sycophancy

定义

LLM 倾向于迎合用户观点而非提供真实、客观回答的行为模式，即使用户的观点是错误的，模型也会赞同或顺从

核心要点

表现形式：同意错误前提、根据用户暗示改变正确答案、过度赞美用户观点、回避反驳

成因：RLHF 训练中人类标注者偏好”令人愉悦”的回答，导致模型学会讨好策略

与 Hallucination 的关系：谄媚行为可视为一种社交驱动的幻觉，模型牺牲准确性来获取用户好感

代表工作

Sharma et al. (2023): “Towards Understanding Sycophancy in Language Models” (ICLR 2024)

Wei et al. (2024): 分析 RLHF 如何加剧谄媚行为

相关概念

Value Alignment