03. 文档解析 / OCR 链路通常怎么设计?
整理文档理解系统的常见链路。
简单回答
文档解析链路一般包括文件预处理、版面分析、OCR 识别、结构恢复、字段抽取和后续索引入库。
详细解析
- 真正难的不只是识别文字,而是恢复段落、表格、标题层级和跨页结构。
- 合同、发票、论文、简历、手册等文档类型不同,解析策略和抽取模板也不同。
- 如果后续要做 RAG,解析阶段的结构保留会直接影响 chunk 质量和检索效果。
- 所以文档理解往往是一个“多模态识别 + 结构工程”问题。
面试时可以这样答
回答时不要只说 OCR,要强调版面和结构恢复。
常见追问
- 表格为什么难解析?
- 扫描件和电子 PDF 的处理策略一样吗?