跳到主要内容

视觉语言模型(VLM)

视觉语言模型(Vision-Language Model,VLM)是能够同时理解图像和文字的多模态大模型,是当前 AI 领域发展最快的方向之一。VLM 让 AI 系统能够"看懂"图像,回答关于图像的问题,理解图表,识别文字,甚至分析视频。

VLM 架构

主流 VLM 的架构遵循相对统一的三段式设计:

图像编码器(Image Encoder)

将图像转化为语义丰富的向量表示。常用选择:

  • CLIP ViT:OpenAI 的 CLIP 图像编码器,经过图文对比训练,语义理解能力强
  • SigLIP:Google 改进版 CLIP,训练更稳定
  • InternViT:InternVL 团队自研的高分辨率视觉编码器

图像通常切分为 Patch(如 14×14 或 16×16 像素),编码后得到一个序列(如 256 个视觉 token)。

投影层(Projection Layer / Adapter)

视觉 token 的维度通常与 LLM 的 token embedding 维度不同,需要一个适配层进行对齐。常见实现:

  • 线性投影:最简单,直接用全连接层对齐维度(LLaVA 1.0 采用)
  • MLP(多层感知机):2-3 层 MLP,非线性映射(LLaVA 1.5 改进)
  • Perceiver Resampler:可变数量的可学习查询,对任意数量的视觉 token 压缩为固定数量(Flamingo、InternVL2)

大型语言模型(LLM Backbone)

接受拼接了视觉 token 的序列作为输入,进行自回归文本生成。图像 token 被插入到文本序列的特定位置(通常在用户指令之前)。

系统提示 + [图像 token 序列] + 用户问题 → LLM → 回答文字

LLaVA 系列:开源 VLM 的代表

LLaVA(Large Language and Vision Assistant,2023) 是最具影响力的开源 VLM,由威斯康星大学等机构提出,验证了用指令微调数据高效训练 VLM 的可行性。

关键版本

  • LLaVA 1.0:CLIP ViT-L + 线性投影 + LLaMA,用 GPT-4 生成的图文指令数据微调,展示了 VLM 的可行性
  • LLaVA 1.5:升级为 MLP 投影层,引入 ShareGPT4V 等更高质量指令数据,效果大幅提升
  • LLaVA-NeXT / LLaVA 1.6:支持高分辨率图像(通过图像切块),多图输入
  • LLaVA-OneVision:统一图像、多图、视频理解的单一模型

LLaVA 的核心贡献是证明了:仅用 15 万条 GPT-4 生成的指令跟随数据,就能让 LLaVA 在多模态对话上获得令人印象深刻的能力。

InternVL 系列:商业级开源 VLM

InternVL(上海 AI 实验室) 是精度最接近闭源模型的开源 VLM 系列:

  • InternVL2-26B/76B:精度接近 GPT-4V,在 OCRBench、MMBench 等评测上表现顶尖
  • InternViT:自研的高分辨率视觉编码器,支持动态分辨率(图像切块数量根据输入自适应)
  • 动态高分辨率:将高分辨率图像切分为多个 448×448 的块,分别编码后拼接,支持最高 4K 分辨率输入

InternVL2 对中文场景尤其友好,在中文 OCR 和中文文档理解上优于大多数同规格模型。

Qwen-VL:阿里的多模态选择

Qwen-VL(阿里巴巴,2023-2024) 是阿里通义千问系列的多模态版本:

  • Qwen-VL-Chat:对话版本,支持多图输入和视觉问答
  • Qwen2-VL(2024):显著提升,引入 Naive Dynamic Resolution,支持任意分辨率图像输入;增加视频理解能力
  • 中文优势:得益于 Qwen 基座模型的强中文能力,图文理解的中文输出质量高

闭源商业 VLM

GPT-4V / GPT-4o

OpenAI 的 GPT-4V 是 VLM 市场的标杆。GPT-4o(Omni)进一步实现了原生多模态:不只是简单地将图像编码后送入 LLM,而是将视觉、语音、文本在同一 Transformer 中统一建模。

GPT-4V 的优势:

  • 复杂图表、科学图形的理解能力强
  • 多图对比分析
  • 代码截图的理解和调试
  • 与 ChatGPT 生态深度集成

Claude 3 / Claude 3.5 Vision

Anthropic 的 Claude 系列在长上下文多模态理解上有优势:

  • 支持在单次对话中上传多张高分辨率图像
  • 在 PDF 文档分析、表格理解、代码截图理解上表现突出
  • 更好的指令遵循和安全性

Gemini 1.5 Pro

Google DeepMind 的 Gemini 是原生多模态设计:

  • 支持超长上下文(最高 100 万 token),可处理整部视频
  • 原生支持文本、图像、音频、视频混合输入
  • 在视频理解和音频处理上具备独特优势

多模态指令跟随能力

现代 VLM 通过指令微调(Instruction Tuning)获得强大的跟随能力:

  • 图文问答(VQA):"这张图中有几个人?" / "图表显示的趋势是什么?"
  • 图像描述:详细描述图像内容,支持不同详细程度
  • 视觉推理:"图中左边的物体比右边的大吗?"
  • OCR 识别:提取图像中的文字,支持手写体和复杂排版
  • 图表理解:解读柱状图、折线图、饼图等数据可视化
  • 视频理解:逐帧分析视频,总结事件、检测动作

评测基准

基准评测重点说明
MMBench综合多模态理解多维度能力评测,包括感知、推理、知识
MMMU大学级专业知识覆盖 30 个学科的多模态问题,需要专业知识
OCRBenchOCR 能力文字识别、手写体、文档理解
MathVista数学视觉推理结合图形的数学题目
VideoMME视频理解视频问答,评测时序理解能力
RealWorldQA真实场景理解日常生活场景的常识推理