01. 什么是多模态大模型?

整理多模态模型的基本定义和能力边界。

简单回答

多模态大模型是能同时处理文本、图像、语音或视频等多种模态输入,并在统一语义空间中完成理解和生成的模型。

详细解析

  • 最常见的是视觉语言模型,也就是把图像信息和文本能力结合起来。
  • 相比纯文本大模型,它不仅能读文字,还能理解页面结构、图片内容、图表和视觉关系。
  • 但多模态并不意味着什么都能做,不同模型在 OCR、图表理解、文档解析和视觉推理上的强项差别很大。
  • 面试时最好把多模态理解成“模态对齐 + 统一建模”,而不是简单说“能看图”。

面试时可以这样答

回答时可先下定义,再补“目前最常落地的是图文模型”。

常见追问

  • VLM 和传统 OCR 有什么关系?
  • 多模态模型一定会生成图片吗?