视觉语言模型(VLM)
视觉语言模型(Vision-Language Model,VLM)是能够同时理解图像和文字的多模态大模型,是当前 AI 领域发展最快的方向之一。VLM 让 AI 系统能够"看懂"图像,回答关于图像的问题,理解图表,识别文字,甚至分析视频。
VLM 架构
主流 VLM 的架构遵循相对统一的三段式设计:
图像编码器(Image Encoder)
将图像转化为语义丰富的向量表示。常用选择:
- CLIP ViT:OpenAI 的 CLIP 图像编码器,经过图文对比训练,语义理解能力强
- SigLIP:Google 改进版 CLIP,训练更稳定
- InternViT:InternVL 团队自研的高分辨率视觉编码器
图像通常切分为 Patch(如 14×14 或 16×16 像素),编码后得到一个序列(如 256 个视觉 token)。
投影层(Projection Layer / Adapter)
视觉 token 的维度通常与 LLM 的 token embedding 维度不同,需要一个适配层进行对齐。常见实现:
- 线性投影:最简单,直接用全连接层对齐维度(LLaVA 1.0 采用)
- MLP(多层感知机):2-3 层 MLP,非线性映射(LLaVA 1.5 改进)
- Perceiver Resampler:可变数量的可学习查询,对任意数量的视觉 token 压缩为固定数量(Flamingo、InternVL2)
大型语言模型(LLM Backbone)
接受拼接了视觉 token 的序列作为输入,进行自回归文本生成。图像 token 被插入到文本序列的特定位置(通常在用户指令之前)。
系统提示 + [图像 token 序列] + 用户问题 → LLM → 回答文字
LLaVA 系列:开源 VLM 的代表
LLaVA(Large Language and Vision Assistant,2023) 是最具影响力的开源 VLM,由威斯康星大学等机构提出,验证了用指令微调数据高效训练 VLM 的可行性。
关键版本
- LLaVA 1.0:CLIP ViT-L + 线性投影 + LLaMA,用 GPT-4 生成的图文指令数据微调,展示了 VLM 的可行性
- LLaVA 1.5:升级为 MLP 投影层,引入 ShareGPT4V 等更高质量指令数据,效果大幅提升
- LLaVA-NeXT / LLaVA 1.6:支持高分辨率图像(通过图像切块),多图输入
- LLaVA-OneVision:统一图像、多图、视频理解的单一模型
LLaVA 的核心贡献是证明了:仅用 15 万条 GPT-4 生成的指令跟随数据,就能让 LLaVA 在多模态对话上获得令人印象深刻的能力。
InternVL 系列:商业级开源 VLM
InternVL(上海 AI 实验室) 是精度最接近闭源模型的开源 VLM 系列:
- InternVL2-26B/76B:精度接近 GPT-4V,在 OCRBench、MMBench 等评测上表现顶尖
- InternViT:自研的高分辨率视觉编码器,支持动态分辨率(图像切块数量根据输入自适应)
- 动态高分辨率:将高分辨率图像切分为多个 448×448 的块,分别编码后拼接,支持最高 4K 分辨率输入
InternVL2 对中文场景尤其友好,在中文 OCR 和中文文档理解上优于大多数同规格模型。
Qwen-VL:阿里的多模态选择
Qwen-VL(阿里巴巴,2023-2024) 是阿里通义千问系列的多模态版本:
- Qwen-VL-Chat:对话版本,支持多图输入和视觉问答
- Qwen2-VL(2024):显著提升,引入 Naive Dynamic Resolution,支持任意分辨率图像输入;增加视频理解能力
- 中文优势:得益于 Qwen 基座模型的强中文能力,图文理解的中文输出质量高
闭源商业 VLM
GPT-4V / GPT-4o
OpenAI 的 GPT-4V 是 VLM 市场的标杆。GPT-4o(Omni)进一步实现了原生多模态:不只是简单地将图像编码后送入 LLM,而是将视觉、语音、文本在同一 Transformer 中统一建模。
GPT-4V 的优势:
- 复杂图表、科学图形的理解能力强
- 多图对比分析
- 代码截图的理解和调试
- 与 ChatGPT 生态深度集成
Claude 3 / Claude 3.5 Vision
Anthropic 的 Claude 系列在长上下文多模态理解上有优势:
- 支持在单次对话中上传多张高分辨率图像
- 在 PDF 文档分析、表格理解、代码截图理解上表现突出
- 更好的指令遵循和安全性
Gemini 1.5 Pro
Google DeepMind 的 Gemini 是原生多模态设计:
- 支持超长上下文(最高 100 万 token),可处理整部视频
- 原生支持文本、图像、音频、视频混合输入
- 在视频理解和音频处理上具备独特优势
多模态指令跟随能力
现代 VLM 通过指令微调(Instruction Tuning)获得强大的跟随能力:
- 图文问答(VQA):"这张图中有几个人?" / "图表显示的趋势是什么?"
- 图像描述:详细描述图像内容,支持不同详细程度
- 视觉推理:"图中左边的物体比右边的大吗?"
- OCR 识别:提取图像中的文字,支持手写体和复杂排版
- 图表理解:解读柱状图、折线图、饼图等数据可视化
- 视频理解:逐帧分析视频,总结事件、检测动作
评测基准
| 基准 | 评测重点 | 说明 |
|---|---|---|
| MMBench | 综合多模态理解 | 多维度能力评测,包括感知、推理、知识 |
| MMMU | 大学级专业知识 | 覆盖 30 个学科的多模态问题,需要专业知识 |
| OCRBench | OCR 能力 | 文字识别、手写体、文档理解 |
| MathVista | 数学视觉推理 | 结合图形的数学题目 |
| VideoMME | 视频理解 | 视频问答,评测时序理解能力 |
| RealWorldQA | 真实场景理解 | 日常生活场景的常识推理 |