05. 多模态 Agent 有哪些典型场景?
整理多模态 Agent 的常见应用方向。
简单回答
多模态 Agent 适合需要一边看图、一边读文、一边调用工具完成任务的场景。
详细解析
- 例如文档审阅助手、报表分析助手、视觉质检、页面操作代理和多模态客服。
- 它不仅要理解图和文,还可能需要结合点击、搜索、表单填写等动作。
- 相比纯文本 Agent,难点更多在于感知误差、状态同步和多源证据融合。
- 是否值得做多模态 Agent,取决于任务是否真的依赖视觉输入。
面试时可以这样答
面试时可以答两个高价值场景,不必硬铺太多行业名词。
常见追问
- GUI Agent 和普通 Agent 有什么差别?
- 多模态 Agent 为什么更难调试?