跳到主要内容

多模态视觉模型

问题

CLIP 和 GPT-4V 等多模态视觉模型的原理是什么?

答案

一、多模态视觉模型演进

二、CLIP 模型

CLIP(Contrastive Language-Image Pre-training) 是最重要的视觉-语言基础模型:

  • 在 4 亿图文对上训练
  • 学会了图像和文本的通用对齐表示
  • 零样本分类:用文本描述替代类别标签

三、视觉语言模型(VLM)

模型特点
GPT-4o原生多模态、商用最强
Claude 3.5文档/图表理解优秀
GeminiGoogle 多模态、长上下文
LLaVA开源 VLM
Qwen-VL阿里开源,中文优秀

VLM 架构

图像 → Vision Encoder → 视觉特征

投影层 → 视觉 Token

文本 → Tokenizer → 文本 Token → [视觉 Token + 文本 Token] → LLM → 输出

四、应用场景

场景应用
图像理解图片描述、视觉问答
文档理解发票/合同/论文解析
多模态搜索用文字搜图片、用图片搜图片
辅助诊断医学影像分析
视觉 Agent基于截图操控 UI

常见面试问题

Q1: CLIP 的零样本分类是怎么工作的?

答案

  1. 用 CLIP Image Encoder 获取图像特征
  2. 将每个类别名称用 Text Encoder 编码为文本特征(如 "a photo of a cat")
  3. 计算图像特征与所有类别文本特征的余弦相似度
  4. 选择相似度最高的类别作为预测结果
  • 不需要任何训练数据,新增类别只需添加文本描述

Q2: VLM 相比纯文本 LLM 有什么额外挑战?

答案

  • 图像分辨率:高分辨率图像产生大量视觉 Token,消耗上下文窗口
  • 幻觉:VLM 的视觉幻觉比文本幻觉更难检测
  • 定位精度:精确的空间位置理解仍是挑战
  • 成本:图片 Token 数量多,API 调用成本高

相关链接