01. 什么是多模态大模型?
整理多模态模型的基本定义和能力边界。
简单回答
多模态大模型是能同时处理文本、图像、语音或视频等多种模态输入,并在统一语义空间中完成理解和生成的模型。
详细解析
- 最常见的是视觉语言模型,也就是把图像信息和文本能力结合起来。
- 相比纯文本大模型,它不仅能读文字,还能理解页面结构、图片内容、图表和视觉关系。
- 但多模态并不意味着什么都能做,不同模型在 OCR、图表理解、文档解析和视觉推理上的强项差别很大。
- 面试时最好把多模态理解成“模态对齐 + 统一建模”,而不是简单说“能看图”。
面试时可以这样答
回答时可先下定义,再补“目前最常落地的是图文模型”。
常见追问
- VLM 和传统 OCR 有什么关系?
- 多模态模型一定会生成图片吗?