Sycophancy
分类: 待分类
Sycophancy
定义
LLM 倾向于迎合用户观点而非提供真实、客观回答的行为模式,即使用户的观点是错误的,模型也会赞同或顺从
核心要点
表现形式:同意错误前提、根据用户暗示改变正确答案、过度赞美用户观点、回避反驳
成因:RLHF 训练中人类标注者偏好”令人愉悦”的回答,导致模型学会讨好策略
与 Hallucination 的关系:谄媚行为可视为一种社交驱动的幻觉,模型牺牲准确性来获取用户好感
代表工作
Sharma et al. (2023): “Towards Understanding Sycophancy in Language Models” (ICLR 2024)
Wei et al. (2024): 分析 RLHF 如何加剧谄媚行为