10. 多模态模型的评测通常怎么做?有哪些主流 Benchmark?
多模态模型评测方法与常见 Benchmark。
简单回答
多模态模型的评测需要覆盖多个维度:视觉问答(VQA)、图像描述(Captioning)、文档/图表理解、视觉推理、幻觉检测、以及 OCR 能力。主流 Benchmark 包括 MMBench、MMMU、MMStar(综合评测),VQAv2、GQA(视觉问答),TextVQA、OCRBench(文字识别),DocVQA、ChartQA(文档图表理解),POPE(幻觉检测),以及 MathVista(数学视觉推理)。评测的核心原则是不能只看一个 Benchmark,需要多维度综合评估。
详细解释
为什么多模态评测比纯文本评测更复杂
纯文本 LLM 的评测主要考察语言理解和生成能力。VLM 的评测维度多得多——除了语言能力外还要评估视觉感知(看到了什么)、视觉推理(基于看到的做推理)、跨模态对齐(图文对应是否准确)、以及各种特定领域的视觉理解能力(文档、图表、数学公式等)。
一个模型可能在通用 VQA 上表现很好,但在文档理解上很差;或者在自然场景理解上很强,但在计数上非常弱。所以多模态评测必须用多个 Benchmark 从多个维度来评估。
综合评测 Benchmark
MMBench 是一个比较全面的 VLM 评测基准,覆盖感知、推理、知识等多个能力维度。采用多选题的形式(给图片和问题,从选项中选答案),评测方式标准化、结果可复现。有中英文版本。
MMMU(Massive Multi-discipline Multimodal Understanding) 专注于学科知识——包含数学、物理、化学、生物、医学、工程等领域的图文理解题目。难度很高,需要模型同时具备视觉理解和领域知识。被认为是目前最有区分度的 VLM Benchmark 之一。
MMStar 是一个注重"真正视觉依赖"的 Benchmark——它的设计确保题目不能通过纯文本推理或猜测来回答,必须真正理解图片内容才能做对。解决了一些 Benchmark 中"不看图也能答对"的问题。
视觉问答(VQA)
VQAv2 是经典的视觉问答 Benchmark——给一张图和一个问题,模型生成答案。覆盖了物体识别、计数、颜色、空间关系等多种问题类型。
GQA 关注组合性推理——问题需要多步推理才能回答(比如"红色物体左边的那个东西是什么材质的")。
TextVQA 专门测试图片中文字的理解——需要读取图片中的文字来回答问题(如路牌、标签、屏幕上的文字)。
文档和图表理解
DocVQA 评估文档图像的理解能力——给一张文档图片(扫描件、表单、发票等),问关于文档内容的问题。
ChartQA 评估图表理解——给一张柱状图、折线图或饼图,问关于数据趋势、具体数值的问题。
InfoVQA 评估信息图(infographic)的理解——这类图片结合了文字、图标、数据,视觉布局复杂。
OCRBench 专门评估 OCR 能力——包括场景文字识别、手写识别、文档文字提取等。
幻觉评测
POPE(Polling-based Object Probing Evaluation) 用二元问题"图中有没有 X?"来检测物体幻觉。简单但有效。
CHAIR(Caption Hallucination Assessment with Image Relevance) 评估图像描述中的幻觉比例——描述中提到的物体有多少实际在图中。
MMHalBench 评估更广泛类型的幻觉——不只是物体,还包括属性、关系、事件等。
数学和推理
MathVista 评估需要视觉信息的数学推理——看图中的几何图形解题、看数据图表做计算等。
AI2D 评估科学图表的理解——生物、物理、化学等学科的示意图。
评测方法和注意事项
多选题 vs 开放生成。多选题评测(如 MMBench)结果标准化好对比,但可能受选项设计影响。开放生成评测(如 VQAv2)更接近真实使用场景,但评分需要人工或 LLM-as-Judge。
排行榜的局限。Benchmark 排名不等于实际使用效果。模型可能在 Benchmark 上针对性优化(overfit),但在其他任务上表现不行。应该在自己的业务场景上做评测,Benchmark 只作为初步筛选的参考。
评测的版本和泄露。一些老的 Benchmark 的数据已经被广泛使用,可能存在数据泄露到训练集的问题。要关注 Benchmark 的版本和防泄露措施。
面试时可以这样答
多模态评测要从多个维度来看,不能只盯一个 Benchmark。综合评测用 MMBench 和 MMMU——MMMU 难度最高、区分度最好。视觉问答用 VQAv2,文档图表理解用 DocVQA 和 ChartQA,OCR 能力用 OCRBench 和 TextVQA,幻觉检测用 POPE。
需要注意的是排行榜不等于实际效果。模型可能在 Benchmark 上针对性优化但在其他任务上表现一般。而且一些 Benchmark 存在"不看图也能答对"的问题——MMStar 就是专门解决这个问题的。
实际选模型的时候我一般先看 MMMU 和 MMBench 做初步筛选,然后在自己的业务场景上做评测。文档理解场景重点看 DocVQA 和 OCRBench,通用场景看 VQAv2 和 GQA。幻觉率用 POPE 单独评估一下。
常见追问
- 你在项目中用了什么多模态模型?怎么做的选型评测?
- MMMU 为什么被认为区分度最高?
- 多模态评测中数据泄露问题怎么处理?