03. 文档解析 / OCR 链路通常怎么设计?

整理文档理解系统的常见链路。

简单回答

文档解析链路一般包括文件预处理、版面分析、OCR 识别、结构恢复、字段抽取和后续索引入库。

详细解析

  • 真正难的不只是识别文字,而是恢复段落、表格、标题层级和跨页结构。
  • 合同、发票、论文、简历、手册等文档类型不同,解析策略和抽取模板也不同。
  • 如果后续要做 RAG,解析阶段的结构保留会直接影响 chunk 质量和检索效果。
  • 所以文档理解往往是一个“多模态识别 + 结构工程”问题。

面试时可以这样答

回答时不要只说 OCR,要强调版面和结构恢复。

常见追问

  • 表格为什么难解析?
  • 扫描件和电子 PDF 的处理策略一样吗?