10. RAG 效果差时应该怎么排查？

整理 RAG 效果差时应该怎么排查？的核心概念、工程要点与面试回答。

简单回答

RAG 效果差时要沿着数据链路逐环节排查：先看检索（是不是没有召回正确文档），再看精排（召回了但排序靠后），再看上下文（给到模型的内容是否足够），最后看生成（模型是否正确利用了上下文）。核心原则是"从前往后查"——检索环节的问题不解决，优化后面的环节没有意义。

详细解释

排查的总体思路

RAG 是一个多环节串联的系统，效果差可能是任何一个环节出了问题。最忌讳的是一上来就调 Prompt 或换模型——这就像程序报错了直接改输出格式，不看代码逻辑。正确的排查顺序应该是从前往后，逐步定位瓶颈。

先看检索：正确文档有没有被召回

这是最高优先级的排查环节。拿几个典型的 bad case，看看检索返回的 Top-K 结果里有没有包含正确答案的文档。如果正确文档根本不在 Top-K 里——这就是召回失败，后面所有环节都是在"烂基础"上建房子。

召回失败常见原因：Chunk 切分把关键信息切断了（比如答案跨了两个 Chunk，每个 Chunk 单独看都不完整）；Embedding 模型和业务领域不匹配（用通用模型编码专业术语效果差）；用户 query 和文档表述差异太大（语义鸿沟）；知识库本身就没有覆盖这个问题。

排查手段：直接打印检索返回的原始结果，人工看一眼相关性。做一个小型评测集（几十到几百条 query-doc 对），跑 Recall@K 量化检索质量。如果 Recall@10 就很低，说明问题在召回阶段。

RAG 效果差要沿着数据链路从前往后排查，核心原则是先确认检索环节没问题，再去看生成环节。
第一步看召回——正确文档有没有在 Top-K 里。如果没有，说明是检索阶段的问题，可能是 Chunk 切分、Embedding 模型或者 query-document 语义鸿沟导致的。这一步不解决，后面优化都没意义。
第二步看精排——召回了但排序靠后的话，加 Rerank 通常能改善。第三步看上下文组装——送给模型的 Prompt 是不是信噪比够高、最相关的文档有没有放在关键位置。第四步才看生成端——模型有没有正确利用上下文、Prompt 指令是不是够明确。
工程上要把每次请求的全链路信息记下来：原始 query、改写 query、检索结果、Rerank 结果、最终 Prompt、模型输出。有了这些，排查 bad case 就不用猜，直接看数据。定期做 bad case 分析，统计问题集中在哪个环节，然后针对性优化。

常见追问

你实际项目中 bad case 最常出现在哪个环节？
你怎么构建 RAG 的评测集？标注数据从哪来？
检索和生成的问题同时存在时，应该先优化哪个？

09. 为什么用了 RAG 之后模型仍然可能产生幻觉？怎么缓解？

11. GraphRAG 和多跳检索适合什么场景？

10. RAG 效果差时应该怎么排查？

排查的总体思路

先看检索：正确文档有没有被召回

再看精排：召回了但排序靠后

看上下文组装：给模型的内容是否合适

最后看生成：模型是否正确利用了上下文

建立系统化的排查框架

一个实用的排查清单