05. 多模态 Agent 有哪些典型场景?
多模态 Agent 的典型应用场景与工程挑战。
简单回答
多模态 Agent 是能"看到"和"操作"视觉界面的 Agent。典型场景包括:Web Agent(自动操作浏览器完成任务——填表、下单、查信息)、GUI Agent(操作桌面或手机应用的界面)、自动化测试(看截图判断 UI 是否正确)、文档理解 Agent(看复杂文档自动提取信息)、以及机器人控制(看到物理环境做决策和操作)。核心能力是"理解视觉界面 + 规划操作步骤 + 执行交互"。
详细解释
从文本 Agent 到多模态 Agent
文本 Agent 的工具是 API 和命令行——它通过生成结构化的函数调用来操作外部世界,所有交互都是文本层面的。多模态 Agent 增加了一个关键能力——"看"。它可以看到网页截图、App 界面、文档页面、摄像头画面等视觉信息,基于看到的内容做决策和操作。
这个"看"的能力使得 Agent 的应用范围大幅扩展。很多现实世界的任务不能只靠 API——比如操作一个没有 API 的老旧系统,只能通过 GUI 界面点击和输入。又比如理解一份复杂的带图表的 PDF,纯文本处理会丢失太多信息。
Web Agent
Web Agent 是目前最热门的多模态 Agent 方向。它能自动操作浏览器完成任务——打开网页、点击按钮、填写表单、滚动页面、提取信息等。
工作流程通常是:用户给出自然语言指令("帮我在某购物网站上搜索蓝牙耳机并按价格排序")→ Agent 打开浏览器截图当前页面 → VLM 理解页面内容和布局 → Agent 决定下一步操作(点击搜索框、输入关键词、点击排序按钮)→ 执行操作 → 截图新页面 → 继续决策 → 循环直到任务完成。
核心技术包括:页面理解(VLM 识别页面中的元素——按钮、输入框、链接、文字等,以及它们的位置)、操作生成(Agent 决定点击哪个位置、输入什么文字、是否需要滚动)、状态追踪(判断当前在哪个页面、任务进展到了哪一步)。
操作方式有两种路线。一种是基于 DOM/Accessibility Tree——解析网页的 HTML 结构而不是视觉截图,通过操作 DOM 元素来交互。好处是精确(元素有明确的 selector),坏处是很多动态页面的 DOM 结构复杂且不稳定。另一种是基于视觉截图——VLM 直接看页面截图理解内容,通过坐标点击来操作。好处是通用(不依赖 DOM 结构),坏处是定位精度可能不够。实际系统通常两者结合。
代表性的项目和 benchmark:WebArena(真实网站环境的 Agent benchmark)、WebVoyager、Mind2Web。Anthropic 的 Claude Computer Use 也展示了强大的界面操作能力。
GUI Agent / Computer Use
GUI Agent 比 Web Agent 更广义——不仅能操作浏览器,还能操作桌面应用、手机 App、操作系统界面等。
Anthropic 的 Claude Computer Use 能力让 Claude "看到"整个电脑屏幕,并通过模拟鼠标点击和键盘输入来操作任何桌面应用。这意味着理论上它可以操作任何有图形界面的软件——打开 Excel 做数据处理、操作 Photoshop 编辑图片、在终端执行命令等。
手机端的 GUI Agent 也有很多探索。比如让 Agent 在 Android 手机上自动完成任务——发消息、设闹钟、叫外卖等。AppAgent(腾讯)和 CogAgent 是这个方向的代表。
文档理解 Agent
传统的文档理解是静态的——输入一张文档图片,输出结构化信息。文档理解 Agent 是动态的——它可以翻页、缩放、在多个文档之间跳转、对信息做交叉验证。
比如"对比这两份合同的关键条款差异"——Agent 需要"看"两份合同、找到对应的条款、比对差异。这比静态 OCR + 文本比对更直观也更灵活。
机器人控制(Embodied Agent)
这是多模态 Agent 的终极形态——机器人通过摄像头"看"物理环境,基于视觉理解做导航、抓取、组装等物理操作。这个方向离产业化落地还有不小距离,但 RT-2(Google)、PaLM-E 等模型展示了视觉语言模型控制机器人的可行性。
多模态 Agent 的核心挑战
视觉定位精度是最大的工程问题。Agent 要点击一个按钮,需要精确知道按钮在屏幕上的像素坐标。VLM 理解"这是一个搜索按钮"没问题,但精确输出它的 (x, y) 坐标还有误差。特别是小按钮、密集 UI 元素的场景下。
推理速度影响交互体验。每一步操作都需要截图 → VLM 推理 → 决策 → 执行,VLM 的推理通常需要几秒钟。用户等 Agent 操作一个网页,每步等 35 秒,10 步就是 3050 秒——体验不太好。
错误恢复困难。Agent 在界面上操作了一步如果出错(点错了位置、进了错误的页面),回退往往不是简单的"撤销"——可能需要一系列操作才能恢复到正确状态。
面试时可以这样答
多模态 Agent 的核心能力是"看到界面 + 规划操作 + 执行交互"。典型场景有几个。Web Agent 自动操作浏览器完成任务——搜索、填表、下单。GUI Agent 更广义,能操作桌面和手机应用。文档理解 Agent 能"看"复杂文档做动态分析。机器人控制是终极形态但离落地还远。
Web Agent 是目前最热的方向。工作流程是截图页面 → VLM 理解内容 → 决定操作 → 执行 → 截图新状态 → 循环。操作方式有基于 DOM 和基于视觉截图两种路线,实际通常结合。
核心挑战是视觉定位精度——精确点击小按钮对 VLM 来说还不容易,推理速度影响交互体验——每步几秒的延迟积累起来用户体验不好,以及错误恢复——界面操作出错后回退很复杂。
常见追问
- Web Agent 基于 DOM 和基于视觉截图各有什么优缺点?
- Claude Computer Use 的工作原理是什么?
- 多模态 Agent 的评测怎么做?