墨圆大模型

03. 文档解析 / OCR 链路通常怎么设计？

整理文档理解系统的常见链路。

简单回答

文档解析链路一般包括文件预处理、版面分析、OCR 识别、结构恢复、字段抽取和后续索引入库。

详细解析

真正难的不只是识别文字，而是恢复段落、表格、标题层级和跨页结构。
合同、发票、论文、简历、手册等文档类型不同，解析策略和抽取模板也不同。
如果后续要做 RAG，解析阶段的结构保留会直接影响 chunk 质量和检索效果。
所以文档理解往往是一个“多模态识别 + 结构工程”问题。

面试时可以这样答

回答时不要只说 OCR，要强调版面和结构恢复。

常见追问

表格为什么难解析？
扫描件和电子 PDF 的处理策略一样吗？

02. 图文对齐是什么意思？

整理视觉和文本表征对齐的基本概念。

04. 多模态 RAG 和纯文本 RAG 有什么区别？

整理多模态检索增强的特点。