RAG

分类: 高效推理与部署

定义

将外部知识库的检索结果与 LLM 的生成能力结合，在推理时动态注入相关上下文以提升回答准确性和时效性的框架

核心流程：Query → Retrieve（从向量数据库检索相关文档）→ Augment（拼接到 prompt）→ Generate（LLM 生成回答）

与端到端记忆模型（如 MSA）的关键区别：RAG 是”检索-拼接”的非可微管道，记忆模型是端到端可训练的

优势：无需重训练即可更新知识；劣势：检索质量是瓶颈，拼接上下文受限于 context window

Lewis et al. (2020): RAG 原始论文，BART + DPR

REALM: 预训练阶段集成检索的知识增强 LM

Self-RAG: 自适应决定是否需要检索