多模态 AI 概述

多模态 AI 是指能够同时处理和理解多种数据类型（模态）的人工智能系统。与传统的单模态模型相比，多模态系统能够从视觉、听觉、语言等多个维度感知世界，更接近人类的认知方式。

什么是多模态

在人工智能领域，"模态"（Modality）指的是信息的一种表现形式或媒介。常见的模态包括：

文本：自然语言文字，包括各种语言、代码、结构化数据（JSON/Markdown 等）
图像：静态视觉信息，包括照片、插图、图表、截图、医学影像等
音频：声音信号，包括语音、音乐、环境音效等
视频：时序性视觉+音频信息，涵盖动态场景、动作、表情变化等
其他模态：传感器数据（IMU、雷达、LiDAR）、结构化表格、3D 点云、生物信号（EEG/ECG）等

单模态模型（如纯文本 LLM）只能处理一种输入类型，而多模态模型（如 GPT-4V、Gemini、Claude 3）能够跨模态理解和生成内容。

与单模态 LLM 的核心区别

维度	单模态 LLM	多模态模型
输入类型	仅文本	文本+图像/音频/视频
感知范围	语言世界	物理世界的多维感知
应用场景	写作/问答/代码	图文问答/视频理解/语音交互
架构复杂度	Transformer 解码器	多编码器+对齐层+LLM
训练数据	文本语料	图文对/视频字幕/多模态对话

单模态 LLM 在纯语言理解与生成上已经非常强大，但面对"请描述这张图片中的异常"或"将这段语音转为文字并总结"等任务时完全无能为力。多模态模型填补了这一空白。

多模态融合策略

如何将来自不同模态的信息整合到统一的表示空间，是多模态系统设计的核心问题。主要有以下三种融合策略：

早期融合（Early Fusion）

在输入端就将多个模态的原始特征直接拼接或加权求和，随后统一送入共享网络处理。

优点：各模态信息可以在最底层交互，理论上能捕获细粒度的跨模态关联
缺点：不同模态数据格式差异大（像素 vs 词元），对齐和归一化困难；若某个模态质量差，会直接污染整体表示

晚期融合（Late Fusion）

各模态各自独立通过专属编码器提取高层语义特征，最终在决策层进行融合（如加权投票、拼接后接分类头）。

优点：各模态编码器可独立预训练和优化，模块化程度高
缺点：在决策层才融合，丢失了模态间低层次的交互信息；在需要细粒度跨模态对齐的任务（如视觉问答）上效果有限

中间融合（Intermediate / Cross-Attention Fusion）

在网络中间层通过注意力机制（Cross-Attention）实现模态间的信息交换，是当前主流方案。典型做法是将图像 patch 特征作为 Key/Value，文本 token 特征作为 Query，通过交叉注意力让语言模型"看到"图像信息。

GPT-4V、LLaVA、InternVL 等主流 VLM 均采用此策略
Flamingo 模型最早系统化地引入 Perceiver Resampler + Cross-Attention 的中间融合架构

主流多模态模型概览

闭源商业模型

GPT-4V / GPT-4o（OpenAI）：支持文本+图像输入，GPT-4o 进一步支持实时语音对话，是目前最广泛使用的多模态商业 API
Claude 3 / Claude 3.5（Anthropic）：长上下文多模态理解能力突出，支持图像+文本，在文档/图表理解场景表现优异
Gemini 1.5 Pro（Google DeepMind）：原生多模态设计，支持超长上下文（100 万 token），可处理整部视频和音频文件

开源模型

LLaVA 系列：早期开源 VLM 的代表，架构简洁（CLIP 编码器 + Projection + LLaMA），验证了 VLM 可以通过指令微调获得强大能力
InternVL2：商业级精度的开源 VLM，在多个基准上接近闭源模型水平
Qwen-VL（阿里巴巴）：中文理解能力强，支持高分辨率图像和多图输入
Whisper（OpenAI）：专注于语音识别的多语言模型，支持 99 种语言

生成式多模态模型

Stable Diffusion / SDXL / FLUX.1：文本生成图像
Sora（OpenAI）：文本/图像生成视频，展示了视频生成的新范式
XTTS / Fish Speech：文本生成语音，支持声音克隆

本章结构导读

本章将系统介绍多模态 AI 的各个方向：

视觉理解
- 图像分类：从 AlexNet 到 ViT 的演进
- 目标检测：YOLO 与 DETR 的技术路线
- 图像分割：SAM 等通用分割模型
- AI 图像生成：扩散模型与 FLUX.1
语音处理
- 语音识别（ASR）：Whisper 及商业 API
- 语音合成（TTS）：神经 TTS 与声音克隆
- Whisper 详解：架构、部署与最佳实践
跨模态模型
- 视觉语言模型（VLM）：架构与主流产品
- CLIP 与对比学习：图文对齐的基础技术
- 文生图技术：Stable Diffusion 生态
- 文生视频技术：Sora 与国内外产品对比

什么是多模态​

与单模态 LLM 的核心区别​

多模态融合策略​

早期融合（Early Fusion）​

晚期融合（Late Fusion）​

中间融合（Intermediate / Cross-Attention Fusion）​

主流多模态模型概览​

闭源商业模型​

开源模型​

生成式多模态模型​

本章结构导读​