05. 多模态 Agent 有哪些典型场景？

多模态 Agent 的典型应用场景与工程挑战。

简单回答

多模态 Agent 是能"看到"和"操作"视觉界面的 Agent。典型场景包括：Web Agent（自动操作浏览器完成任务——填表、下单、查信息）、GUI Agent（操作桌面或手机应用的界面）、自动化测试（看截图判断 UI 是否正确）、文档理解 Agent（看复杂文档自动提取信息）、以及机器人控制（看到物理环境做决策和操作）。核心能力是"理解视觉界面 + 规划操作步骤 + 执行交互"。

详细解释

从文本 Agent 到多模态 Agent

文本 Agent 的工具是 API 和命令行——它通过生成结构化的函数调用来操作外部世界，所有交互都是文本层面的。多模态 Agent 增加了一个关键能力——"看"。它可以看到网页截图、App 界面、文档页面、摄像头画面等视觉信息，基于看到的内容做决策和操作。

这个"看"的能力使得 Agent 的应用范围大幅扩展。很多现实世界的任务不能只靠 API——比如操作一个没有 API 的老旧系统，只能通过 GUI 界面点击和输入。又比如理解一份复杂的带图表的 PDF，纯文本处理会丢失太多信息。

Web Agent

Web Agent 是目前最热门的多模态 Agent 方向。它能自动操作浏览器完成任务——打开网页、点击按钮、填写表单、滚动页面、提取信息等。

工作流程通常是：用户给出自然语言指令（"帮我在某购物网站上搜索蓝牙耳机并按价格排序"）→ Agent 打开浏览器截图当前页面 → VLM 理解页面内容和布局 → Agent 决定下一步操作（点击搜索框、输入关键词、点击排序按钮）→ 执行操作 → 截图新页面 → 继续决策 → 循环直到任务完成。

核心技术包括：页面理解（VLM 识别页面中的元素——按钮、输入框、链接、文字等，以及它们的位置）、操作生成（Agent 决定点击哪个位置、输入什么文字、是否需要滚动）、状态追踪（判断当前在哪个页面、任务进展到了哪一步）。

操作方式有两种路线。一种是基于 DOM/Accessibility Tree——解析网页的 HTML 结构而不是视觉截图，通过操作 DOM 元素来交互。好处是精确（元素有明确的 selector），坏处是很多动态页面的 DOM 结构复杂且不稳定。另一种是基于视觉截图——VLM 直接看页面截图理解内容，通过坐标点击来操作。好处是通用（不依赖 DOM 结构），坏处是定位精度可能不够。实际系统通常两者结合。

代表性的项目和 benchmark：WebArena（真实网站环境的 Agent benchmark）、WebVoyager、Mind2Web。Anthropic 的 Claude Computer Use 也展示了强大的界面操作能力。

GUI Agent / Computer Use

GUI Agent 比 Web Agent 更广义——不仅能操作浏览器，还能操作桌面应用、手机 App、操作系统界面等。

Anthropic 的 Claude Computer Use 能力让 Claude "看到"整个电脑屏幕，并通过模拟鼠标点击和键盘输入来操作任何桌面应用。这意味着理论上它可以操作任何有图形界面的软件——打开 Excel 做数据处理、操作 Photoshop 编辑图片、在终端执行命令等。

手机端的 GUI Agent 也有很多探索。比如让 Agent 在 Android 手机上自动完成任务——发消息、设闹钟、叫外卖等。AppAgent（腾讯）和 CogAgent 是这个方向的代表。

错误恢复困难。Agent 在界面上操作了一步如果出错（点错了位置、进了错误的页面），回退往往不是简单的"撤销"——可能需要一系列操作才能恢复到正确状态。

面试时可以这样答

多模态 Agent 的核心能力是"看到界面 + 规划操作 + 执行交互"。典型场景有几个。Web Agent 自动操作浏览器完成任务——搜索、填表、下单。GUI Agent 更广义，能操作桌面和手机应用。文档理解 Agent 能"看"复杂文档做动态分析。机器人控制是终极形态但离落地还远。
Web Agent 是目前最热的方向。工作流程是截图页面 → VLM 理解内容 → 决定操作 → 执行 → 截图新状态 → 循环。操作方式有基于 DOM 和基于视觉截图两种路线，实际通常结合。
核心挑战是视觉定位精度——精确点击小按钮对 VLM 来说还不容易，推理速度影响交互体验——每步几秒的延迟积累起来用户体验不好，以及错误恢复——界面操作出错后回退很复杂。

常见追问

Web Agent 基于 DOM 和基于视觉截图各有什么优缺点？
Claude Computer Use 的工作原理是什么？
多模态 Agent 的评测怎么做？

04. 多模态 RAG 和纯文本 RAG 有什么区别？

06. 语音大模型（TTS / ASR + LLM）的典型架构是什么？

05. 多模态 Agent 有哪些典型场景？

从文本 Agent 到多模态 Agent

Web Agent

GUI Agent / Computer Use

文档理解 Agent

机器人控制（Embodied Agent）

多模态 Agent 的核心挑战