Hallucination

分类: 基础理论

Hallucination

定义

语言模型生成看似流畅但与事实不符或无法从输入中推导的内容,是当前 LLM 可靠性的核心挑战之一

核心要点

分类:事实性幻觉(fabricated facts)vs. 忠实性幻觉(unfaithful to source),前者在开放生成中更突出,后者在摘要/翻译中更关键

成因:训练数据噪声、自回归解码的误差累积、模型对训练集中高频模式的过度泛化

缓解策略:检索增强生成(RAG)、基于引用的生成、忠实度评分、RLHF 对齐、CoT 推理链

代表工作

Ji et al. (2023): “Survey of Hallucination in Natural Language Generation” (ACM Computing Surveys)

FActScore (Min et al., 2023): 原子事实级别的幻觉评估框架

RARR (Gao et al., 2023): 检索辅助的事后事实修正

相关概念

Calibration

Value Alignment

RLHF