04. 召回效果差时你一般怎么排查?
整理召回问题的排查顺序。
简单回答
召回差一般先看查询、再看切分、再看 embedding 和索引,最后再看过滤与排序策略。
详细解析
- 先确认用户问题是不是表达不清、需要改写或扩展关键词。
- 再看 chunk 是否切坏了语义,导致正确答案被拆散或被噪声淹没。
- 接着看 embedding 模型是否适配当前语料,以及向量索引参数和 metadata 过滤有没有误伤。
- 如果这些都正常,再考虑引入混合检索或查询增强。
面试时可以这样答
回答时最好展示你会分层排查,而不是上来就说“换个 embedding 模型”。
常见追问
- 怎么判断是 chunk 问题?
- 什么时候该上 Hybrid Search?