视觉语言模型（VLM）

视觉语言模型（Vision-Language Model，VLM）是能够同时理解图像和文字的多模态大模型，是当前 AI 领域发展最快的方向之一。VLM 让 AI 系统能够"看懂"图像，回答关于图像的问题，理解图表，识别文字，甚至分析视频。

VLM 架构

主流 VLM 的架构遵循相对统一的三段式设计：

图像编码器（Image Encoder）

将图像转化为语义丰富的向量表示。常用选择：

CLIP ViT：OpenAI 的 CLIP 图像编码器，经过图文对比训练，语义理解能力强
SigLIP：Google 改进版 CLIP，训练更稳定
InternViT：InternVL 团队自研的高分辨率视觉编码器

图像通常切分为 Patch（如 14×14 或 16×16 像素），编码后得到一个序列（如 256 个视觉 token）。

投影层（Projection Layer / Adapter）

视觉 token 的维度通常与 LLM 的 token embedding 维度不同，需要一个适配层进行对齐。常见实现：

线性投影：最简单，直接用全连接层对齐维度（LLaVA 1.0 采用）
MLP（多层感知机）：2-3 层 MLP，非线性映射（LLaVA 1.5 改进）
Perceiver Resampler：可变数量的可学习查询，对任意数量的视觉 token 压缩为固定数量（Flamingo、InternVL2）

大型语言模型（LLM Backbone）

接受拼接了视觉 token 的序列作为输入，进行自回归文本生成。图像 token 被插入到文本序列的特定位置（通常在用户指令之前）。

系统提示 + [图像 token 序列] + 用户问题 → LLM → 回答文字

LLaVA 系列：开源 VLM 的代表

LLaVA（Large Language and Vision Assistant，2023） 是最具影响力的开源 VLM，由威斯康星大学等机构提出，验证了用指令微调数据高效训练 VLM 的可行性。

关键版本

LLaVA 1.0：CLIP ViT-L + 线性投影 + LLaMA，用 GPT-4 生成的图文指令数据微调，展示了 VLM 的可行性
LLaVA 1.5：升级为 MLP 投影层，引入 ShareGPT4V 等更高质量指令数据，效果大幅提升
LLaVA-NeXT / LLaVA 1.6：支持高分辨率图像（通过图像切块），多图输入
LLaVA-OneVision：统一图像、多图、视频理解的单一模型

LLaVA 的核心贡献是证明了：仅用 15 万条 GPT-4 生成的指令跟随数据，就能让 LLaVA 在多模态对话上获得令人印象深刻的能力。

InternVL 系列：商业级开源 VLM

InternVL（上海 AI 实验室） 是精度最接近闭源模型的开源 VLM 系列：

InternVL2-26B/76B：精度接近 GPT-4V，在 OCRBench、MMBench 等评测上表现顶尖
InternViT：自研的高分辨率视觉编码器，支持动态分辨率（图像切块数量根据输入自适应）
动态高分辨率：将高分辨率图像切分为多个 448×448 的块，分别编码后拼接，支持最高 4K 分辨率输入

InternVL2 对中文场景尤其友好，在中文 OCR 和中文文档理解上优于大多数同规格模型。

Qwen-VL：阿里的多模态选择

Qwen-VL（阿里巴巴，2023-2024） 是阿里通义千问系列的多模态版本：

Qwen-VL-Chat：对话版本，支持多图输入和视觉问答
Qwen2-VL（2024）：显著提升，引入 Naive Dynamic Resolution，支持任意分辨率图像输入；增加视频理解能力
中文优势：得益于 Qwen 基座模型的强中文能力，图文理解的中文输出质量高

闭源商业 VLM

GPT-4V / GPT-4o

OpenAI 的 GPT-4V 是 VLM 市场的标杆。GPT-4o（Omni）进一步实现了原生多模态：不只是简单地将图像编码后送入 LLM，而是将视觉、语音、文本在同一 Transformer 中统一建模。

GPT-4V 的优势：

复杂图表、科学图形的理解能力强
多图对比分析
代码截图的理解和调试
与 ChatGPT 生态深度集成

Claude 3 / Claude 3.5 Vision

Anthropic 的 Claude 系列在长上下文多模态理解上有优势：

支持在单次对话中上传多张高分辨率图像
在 PDF 文档分析、表格理解、代码截图理解上表现突出
更好的指令遵循和安全性

Gemini 1.5 Pro

Google DeepMind 的 Gemini 是原生多模态设计：

支持超长上下文（最高 100 万 token），可处理整部视频
原生支持文本、图像、音频、视频混合输入
在视频理解和音频处理上具备独特优势

多模态指令跟随能力

现代 VLM 通过指令微调（Instruction Tuning）获得强大的跟随能力：

图文问答（VQA）："这张图中有几个人？" / "图表显示的趋势是什么？"
图像描述：详细描述图像内容，支持不同详细程度
视觉推理："图中左边的物体比右边的大吗？"
OCR 识别：提取图像中的文字，支持手写体和复杂排版
图表理解：解读柱状图、折线图、饼图等数据可视化
视频理解：逐帧分析视频，总结事件、检测动作

评测基准

基准	评测重点	说明
MMBench	综合多模态理解	多维度能力评测，包括感知、推理、知识
MMMU	大学级专业知识	覆盖 30 个学科的多模态问题，需要专业知识
OCRBench	OCR 能力	文字识别、手写体、文档理解
MathVista	数学视觉推理	结合图形的数学题目
VideoMME	视频理解	视频问答，评测时序理解能力
RealWorldQA	真实场景理解	日常生活场景的常识推理

VLM 架构​

图像编码器（Image Encoder）​

投影层（Projection Layer / Adapter）​

大型语言模型（LLM Backbone）​

LLaVA 系列：开源 VLM 的代表​

关键版本​

InternVL 系列：商业级开源 VLM​

Qwen-VL：阿里的多模态选择​

闭源商业 VLM​

GPT-4V / GPT-4o​

Claude 3 / Claude 3.5 Vision​

Gemini 1.5 Pro​

多模态指令跟随能力​

评测基准​