03. Chunk 应该怎么切?为什么切分策略会直接影响效果?
整理切块策略与召回效果之间的关系。
简单回答
Chunk 既不能太大,也不能太小。太大容易夹杂噪声,太小又可能把完整语义切碎,导致召回和生成都不稳定。
详细解析
- 切分时通常要同时考虑语义完整性、模型上下文窗口和向量检索粒度。
- 常见做法包括固定长度切分、按标题段落切分、滑窗重叠切分和结构化切分。
- FAQ、代码、表格、合同、论文等文档类型不同,最佳 chunk 策略也不同。
- 很多 RAG 效果差,问题不在模型,而在 chunk 把本来连贯的知识拆坏了。
面试时可以这样答
面试时最好讲出一个具体例子,比如“表格文档就不适合简单按字符硬切”。
常见追问
- 为什么要 overlap?
- chunk size 是越大越好吗?