04. 召回效果差时你一般怎么排查?

整理召回问题的排查顺序。

简单回答

召回差一般先看查询、再看切分、再看 embedding 和索引,最后再看过滤与排序策略。

详细解析

  • 先确认用户问题是不是表达不清、需要改写或扩展关键词。
  • 再看 chunk 是否切坏了语义,导致正确答案被拆散或被噪声淹没。
  • 接着看 embedding 模型是否适配当前语料,以及向量索引参数和 metadata 过滤有没有误伤。
  • 如果这些都正常,再考虑引入混合检索或查询增强。

面试时可以这样答

回答时最好展示你会分层排查,而不是上来就说“换个 embedding 模型”。

常见追问

  • 怎么判断是 chunk 问题?
  • 什么时候该上 Hybrid Search?