03. Chunk 应该怎么切?为什么切分策略会直接影响效果?

整理切块策略与召回效果之间的关系。

简单回答

Chunk 既不能太大,也不能太小。太大容易夹杂噪声,太小又可能把完整语义切碎,导致召回和生成都不稳定。

详细解析

  • 切分时通常要同时考虑语义完整性、模型上下文窗口和向量检索粒度。
  • 常见做法包括固定长度切分、按标题段落切分、滑窗重叠切分和结构化切分。
  • FAQ、代码、表格、合同、论文等文档类型不同,最佳 chunk 策略也不同。
  • 很多 RAG 效果差,问题不在模型,而在 chunk 把本来连贯的知识拆坏了。

面试时可以这样答

面试时最好讲出一个具体例子,比如“表格文档就不适合简单按字符硬切”。

常见追问

  • 为什么要 overlap?
  • chunk size 是越大越好吗?