02. 图文对齐是什么意思?

整理视觉和文本表征对齐的基本概念。

简单回答

图文对齐指的是让模型学会把视觉信息和文字语义映射到可互相理解的表示空间里。

详细解析

  • 只有完成对齐,模型才能把图里看到的物体、文字、布局和关系,转成语言模型可利用的信息。
  • CLIP 这类方法就是经典图文对齐思路,它让相匹配的图文更接近,不匹配的更远。
  • 很多视觉语言模型在此基础上再接语言模型,实现更强的问答和生成能力。
  • 从面试角度看,对齐是多模态模型的基础,不理解它就很难讲清后续系统。

面试时可以这样答

可以把这题讲成“先学会图和字说的是同一件事,后面才能做复杂推理”。

常见追问

  • 对齐和融合有什么区别?
  • 为什么图文对齐对检索也很重要?