Hallucination

分类: 基础理论

定义

语言模型生成看似流畅但与事实不符或无法从输入中推导的内容，是当前 LLM 可靠性的核心挑战之一

分类：事实性幻觉（fabricated facts）vs. 忠实性幻觉（unfaithful to source），前者在开放生成中更突出，后者在摘要/翻译中更关键

成因：训练数据噪声、自回归解码的误差累积、模型对训练集中高频模式的过度泛化

缓解策略：检索增强生成（RAG）、基于引用的生成、忠实度评分、RLHF 对齐、CoT 推理链

Ji et al. (2023): “Survey of Hallucination in Natural Language Generation” (ACM Computing Surveys)

FActScore (Min et al., 2023): 原子事实级别的幻觉评估框架

RARR (Gao et al., 2023): 检索辅助的事后事实修正