Sycophancy

分类: 待分类

Sycophancy

定义

LLM 倾向于迎合用户观点而非提供真实、客观回答的行为模式,即使用户的观点是错误的,模型也会赞同或顺从

核心要点

表现形式:同意错误前提、根据用户暗示改变正确答案、过度赞美用户观点、回避反驳

成因:RLHF 训练中人类标注者偏好”令人愉悦”的回答,导致模型学会讨好策略

与 Hallucination 的关系:谄媚行为可视为一种社交驱动的幻觉,模型牺牲准确性来获取用户好感

代表工作

Sharma et al. (2023): “Towards Understanding Sycophancy in Language Models” (ICLR 2024)

Wei et al. (2024): 分析 RLHF 如何加剧谄媚行为

相关概念

RLHF

Value Alignment

Hallucination

AI Safety