10. 多模态模型的评测通常怎么做？有哪些主流 Benchmark？

多模态模型评测方法与常见 Benchmark。

简单回答

多模态模型的评测需要覆盖多个维度：视觉问答（VQA）、图像描述（Captioning）、文档/图表理解、视觉推理、幻觉检测、以及 OCR 能力。主流 Benchmark 包括 MMBench、MMMU、MMStar（综合评测），VQAv2、GQA（视觉问答），TextVQA、OCRBench（文字识别），DocVQA、ChartQA（文档图表理解），POPE（幻觉检测），以及 MathVista（数学视觉推理）。评测的核心原则是不能只看一个 Benchmark，需要多维度综合评估。

详细解释

为什么多模态评测比纯文本评测更复杂

纯文本 LLM 的评测主要考察语言理解和生成能力。VLM 的评测维度多得多——除了语言能力外还要评估视觉感知（看到了什么）、视觉推理（基于看到的做推理）、跨模态对齐（图文对应是否准确）、以及各种特定领域的视觉理解能力（文档、图表、数学公式等）。

一个模型可能在通用 VQA 上表现很好，但在文档理解上很差；或者在自然场景理解上很强，但在计数上非常弱。所以多模态评测必须用多个 Benchmark 从多个维度来评估。

综合评测 Benchmark

MMBench 是一个比较全面的 VLM 评测基准，覆盖感知、推理、知识等多个能力维度。采用多选题的形式（给图片和问题，从选项中选答案），评测方式标准化、结果可复现。有中英文版本。

MMMU（Massive Multi-discipline Multimodal Understanding） 专注于学科知识——包含数学、物理、化学、生物、医学、工程等领域的图文理解题目。难度很高，需要模型同时具备视觉理解和领域知识。被认为是目前最有区分度的 VLM Benchmark 之一。

MMStar 是一个注重"真正视觉依赖"的 Benchmark——它的设计确保题目不能通过纯文本推理或猜测来回答，必须真正理解图片内容才能做对。解决了一些 Benchmark 中"不看图也能答对"的问题。

视觉问答（VQA）

VQAv2 是经典的视觉问答 Benchmark——给一张图和一个问题，模型生成答案。覆盖了物体识别、计数、颜色、空间关系等多种问题类型。

GQA 关注组合性推理——问题需要多步推理才能回答（比如"红色物体左边的那个东西是什么材质的"）。

TextVQA 专门测试图片中文字的理解——需要读取图片中的文字来回答问题（如路牌、标签、屏幕上的文字）。

文档和图表理解

DocVQA 评估文档图像的理解能力——给一张文档图片（扫描件、表单、发票等），问关于文档内容的问题。

ChartQA 评估图表理解——给一张柱状图、折线图或饼图，问关于数据趋势、具体数值的问题。

InfoVQA 评估信息图（infographic）的理解——这类图片结合了文字、图标、数据，视觉布局复杂。

OCRBench 专门评估 OCR 能力——包括场景文字识别、手写识别、文档文字提取等。

幻觉评测

POPE（Polling-based Object Probing Evaluation） 用二元问题"图中有没有 X？"来检测物体幻觉。简单但有效。

CHAIR（Caption Hallucination Assessment with Image Relevance） 评估图像描述中的幻觉比例——描述中提到的物体有多少实际在图中。

MMHalBench 评估更广泛类型的幻觉——不只是物体，还包括属性、关系、事件等。

数学和推理

MathVista 评估需要视觉信息的数学推理——看图中的几何图形解题、看数据图表做计算等。

AI2D 评估科学图表的理解——生物、物理、化学等学科的示意图。

评测方法和注意事项

多选题 vs 开放生成。多选题评测（如 MMBench）结果标准化好对比，但可能受选项设计影响。开放生成评测（如 VQAv2）更接近真实使用场景，但评分需要人工或 LLM-as-Judge。

排行榜的局限。Benchmark 排名不等于实际使用效果。模型可能在 Benchmark 上针对性优化（overfit），但在其他任务上表现不行。应该在自己的业务场景上做评测，Benchmark 只作为初步筛选的参考。

评测的版本和泄露。一些老的 Benchmark 的数据已经被广泛使用，可能存在数据泄露到训练集的问题。要关注 Benchmark 的版本和防泄露措施。

面试时可以这样答

多模态评测要从多个维度来看，不能只盯一个 Benchmark。综合评测用 MMBench 和 MMMU——MMMU 难度最高、区分度最好。视觉问答用 VQAv2，文档图表理解用 DocVQA 和 ChartQA，OCR 能力用 OCRBench 和 TextVQA，幻觉检测用 POPE。
需要注意的是排行榜不等于实际效果。模型可能在 Benchmark 上针对性优化但在其他任务上表现一般。而且一些 Benchmark 存在"不看图也能答对"的问题——MMStar 就是专门解决这个问题的。
实际选模型的时候我一般先看 MMMU 和 MMBench 做初步筛选，然后在自己的业务场景上做评测。文档理解场景重点看 DocVQA 和 OCRBench，通用场景看 VQAv2 和 GQA。幻觉率用 POPE 单独评估一下。

常见追问

你在项目中用了什么多模态模型？怎么做的选型评测？
MMMU 为什么被认为区分度最高？
多模态评测中数据泄露问题怎么处理？

09. 图像生成模型（Diffusion）与语言模型的结合方式有哪些？

11. Vision Encoder 怎么选？ViT、CLIP、SigLIP、DINOv2 各有什么特点和适用场景？