04. 多模态 RAG 和纯文本 RAG 有什么区别?
整理多模态检索增强的特点。
简单回答
多模态 RAG 不只是把文本送去向量库,而是要处理图片、页面区域、表格和图文混合信息的检索与组织。
详细解析
- 知识切分不再只是字符或段落,还可能是页面块、图表区域和图文组合单元。
- 表示方式可能是图像向量、文本向量,或者多模态统一向量。
- 生成阶段也要考虑如何把图片证据、OCR 文本和结构信息一起提供给模型。
- 这使得多模态 RAG 在索引、召回和证据拼装上都比文本 RAG 更复杂。
面试时可以这样答
回答时重点强调“数据单元变了、表示变了、证据组织也变了”。
常见追问
- 多模态 RAG 什么时候比 OCR+文本 RAG 更必要?
- 图表问答难点在哪?