05. 多模态 Agent 有哪些典型场景?

整理多模态 Agent 的常见应用方向。

简单回答

多模态 Agent 适合需要一边看图、一边读文、一边调用工具完成任务的场景。

详细解析

  • 例如文档审阅助手、报表分析助手、视觉质检、页面操作代理和多模态客服。
  • 它不仅要理解图和文,还可能需要结合点击、搜索、表单填写等动作。
  • 相比纯文本 Agent,难点更多在于感知误差、状态同步和多源证据融合。
  • 是否值得做多模态 Agent,取决于任务是否真的依赖视觉输入。

面试时可以这样答

面试时可以答两个高价值场景,不必硬铺太多行业名词。

常见追问

  • GUI Agent 和普通 Agent 有什么差别?
  • 多模态 Agent 为什么更难调试?