多模态 AI 概述
多模态 AI 是指能够同时处理和理解多种数据类型(模态)的人工智能系统。与传统的单模态模型相比,多模态系统能够从视觉、听觉、语言等多个维度感知世界,更接近人类的认知方式。
什么是多模态
在人工智能领域,"模态"(Modality)指的是信息的一种表现形式或媒介。常见的模态包括:
- 文本:自然语言文字,包括各种语言、代码、结构化数据(JSON/Markdown 等)
- 图像:静态视觉信息,包括照片、插图、图表、截图、医学影像等
- 音频:声音信号,包括语音、音乐、环境音效等
- 视频:时序性视觉+音频信息,涵盖动态场景、动作、表情变化等
- 其他模态:传感器数据(IMU、雷达、LiDAR)、结构化表格、3D 点云、生物信号(EEG/ECG)等
单模态模型(如纯文本 LLM)只能处理一种输入类型,而多模态模型(如 GPT-4V、Gemini、Claude 3)能够跨模态理解和生成内容。
与单模态 LLM 的核心区别
| 维度 | 单模态 LLM | 多模态模型 |
|---|---|---|
| 输入类型 | 仅文本 | 文本+图像/音频/视频 |
| 感知范围 | 语言世界 | 物理世界的多维感知 |
| 应用场景 | 写作/问答/代码 | 图文问答/视频理解/语音交互 |
| 架构复杂度 | Transformer 解码器 | 多编码器+对齐层+LLM |
| 训练数据 | 文本语料 | 图文对/视频字幕/多模态对话 |
单模态 LLM 在纯语言理解与生成上已经非常强大,但面对"请描述这张图片中的异常"或"将这段语音转为文字并总结"等任务时完全无能为力。多模态模型填补了这一空白。
多模态融合策略
如何将来自不同模态的信息整合到统一的表示空间,是多模态系统设计的核心问题。主要有以下三种融合策略:
早期融合(Early Fusion)
在输入端就将多个模态的原始特征直接拼接或加权求和,随后统一送入共享网络处理。
- 优点:各模态信息可以在最底层交互,理论上能捕获细粒度的跨模态关联
- 缺点:不同模态数据格式差异大(像素 vs 词元),对齐和归一化困难;若某个模态质量差,会直接污染整体表示
晚期融合(Late Fusion)
各模态各自独立通过专属编码器提取高层语义特征,最终在决策层进行融合(如加权投票、拼接后接分类头)。
- 优点:各模态编码器可独立预训练和优化,模块化程度高
- 缺点:在决策层才融合,丢失了模态间低层次的交互信息;在需要细粒度跨模态对齐的任务(如视觉问答)上效果有限
中间融合(Intermediate / Cross-Attention Fusion)
在网络中间层通过注意力机制(Cross-Attention)实现模态间的信息交换,是当前主流方案。典型做法是将图像 patch 特征作为 Key/Value,文本 token 特征作为 Query,通过交叉注意力让语言模型"看到"图像信息。
- GPT-4V、LLaVA、InternVL 等主流 VLM 均采用此策略
- Flamingo 模型最早系统化地引入 Perceiver Resampler + Cross-Attention 的中间融合架构
主流多模态模型概览
闭源商业模型
- GPT-4V / GPT-4o(OpenAI):支持文本+图像输入,GPT-4o 进一步支持实时语音对话,是目前最广泛使用的多模态商业 API
- Claude 3 / Claude 3.5(Anthropic):长上下文多模态理解能力突出,支持图像+文本,在文档/图表理解场景表现优异
- Gemini 1.5 Pro(Google DeepMind):原生多模态设计,支持超长上下文(100 万 token),可处理整部视频和音频文件
开源模型
- LLaVA 系列:早期开源 VLM 的代表,架构简洁(CLIP 编码器 + Projection + LLaMA),验证了 VLM 可以通过指令微调获得强大能力
- InternVL2:商业级精度的开源 VLM,在多个基准上接近闭源模型水平
- Qwen-VL(阿里巴巴):中文理解能力强,支持高分辨率图像和多图输入
- Whisper(OpenAI):专注于语音识别的多语言模型,支持 99 种语言
生成式多模态模型
- Stable Diffusion / SDXL / FLUX.1:文本生成图像
- Sora(OpenAI):文本/图像生成视频,展示了视频生成的新范式
- XTTS / Fish Speech:文本生成语音,支持声音克隆
本章结构导读
本章将系统介绍多模态 AI 的各个方向:
-
视觉理解
- 图像分类:从 AlexNet 到 ViT 的演进
- 目标检测:YOLO 与 DETR 的技术路线
- 图像分割:SAM 等通用分割模型
- AI 图像生成:扩散模型与 FLUX.1
-
语音处理
- 语音识别(ASR):Whisper 及商业 API
- 语音合成(TTS):神经 TTS 与声音克隆
- Whisper 详解:架构、部署与最佳实践
-
跨模态模型
- 视觉语言模型(VLM):架构与主流产品
- CLIP 与对比学习:图文对齐的基础技术
- 文生图技术:Stable Diffusion 生态
- 文生视频技术:Sora 与国内外产品对比