RAG
分类: 高效推理与部署
RAG
定义
将外部知识库的检索结果与 LLM 的生成能力结合,在推理时动态注入相关上下文以提升回答准确性和时效性的框架
核心要点
核心流程:Query → Retrieve(从向量数据库检索相关文档)→ Augment(拼接到 prompt)→ Generate(LLM 生成回答)
与端到端记忆模型(如 MSA)的关键区别:RAG 是”检索-拼接”的非可微管道,记忆模型是端到端可训练的
优势:无需重训练即可更新知识;劣势:检索质量是瓶颈,拼接上下文受限于 context window
代表工作
Lewis et al. (2020): RAG 原始论文,BART + DPR
REALM: 预训练阶段集成检索的知识增强 LM
Self-RAG: 自适应决定是否需要检索