跳到主要内容

多模态 AI 概述

多模态 AI 是指能够同时处理和理解多种数据类型(模态)的人工智能系统。与传统的单模态模型相比,多模态系统能够从视觉、听觉、语言等多个维度感知世界,更接近人类的认知方式。

什么是多模态

在人工智能领域,"模态"(Modality)指的是信息的一种表现形式或媒介。常见的模态包括:

  • 文本:自然语言文字,包括各种语言、代码、结构化数据(JSON/Markdown 等)
  • 图像:静态视觉信息,包括照片、插图、图表、截图、医学影像等
  • 音频:声音信号,包括语音、音乐、环境音效等
  • 视频:时序性视觉+音频信息,涵盖动态场景、动作、表情变化等
  • 其他模态:传感器数据(IMU、雷达、LiDAR)、结构化表格、3D 点云、生物信号(EEG/ECG)等

单模态模型(如纯文本 LLM)只能处理一种输入类型,而多模态模型(如 GPT-4V、Gemini、Claude 3)能够跨模态理解和生成内容。

与单模态 LLM 的核心区别

维度单模态 LLM多模态模型
输入类型仅文本文本+图像/音频/视频
感知范围语言世界物理世界的多维感知
应用场景写作/问答/代码图文问答/视频理解/语音交互
架构复杂度Transformer 解码器多编码器+对齐层+LLM
训练数据文本语料图文对/视频字幕/多模态对话

单模态 LLM 在纯语言理解与生成上已经非常强大,但面对"请描述这张图片中的异常"或"将这段语音转为文字并总结"等任务时完全无能为力。多模态模型填补了这一空白。

多模态融合策略

如何将来自不同模态的信息整合到统一的表示空间,是多模态系统设计的核心问题。主要有以下三种融合策略:

早期融合(Early Fusion)

在输入端就将多个模态的原始特征直接拼接或加权求和,随后统一送入共享网络处理。

  • 优点:各模态信息可以在最底层交互,理论上能捕获细粒度的跨模态关联
  • 缺点:不同模态数据格式差异大(像素 vs 词元),对齐和归一化困难;若某个模态质量差,会直接污染整体表示

晚期融合(Late Fusion)

各模态各自独立通过专属编码器提取高层语义特征,最终在决策层进行融合(如加权投票、拼接后接分类头)。

  • 优点:各模态编码器可独立预训练和优化,模块化程度高
  • 缺点:在决策层才融合,丢失了模态间低层次的交互信息;在需要细粒度跨模态对齐的任务(如视觉问答)上效果有限

中间融合(Intermediate / Cross-Attention Fusion)

在网络中间层通过注意力机制(Cross-Attention)实现模态间的信息交换,是当前主流方案。典型做法是将图像 patch 特征作为 Key/Value,文本 token 特征作为 Query,通过交叉注意力让语言模型"看到"图像信息。

  • GPT-4V、LLaVA、InternVL 等主流 VLM 均采用此策略
  • Flamingo 模型最早系统化地引入 Perceiver Resampler + Cross-Attention 的中间融合架构

主流多模态模型概览

闭源商业模型

  • GPT-4V / GPT-4o(OpenAI):支持文本+图像输入,GPT-4o 进一步支持实时语音对话,是目前最广泛使用的多模态商业 API
  • Claude 3 / Claude 3.5(Anthropic):长上下文多模态理解能力突出,支持图像+文本,在文档/图表理解场景表现优异
  • Gemini 1.5 Pro(Google DeepMind):原生多模态设计,支持超长上下文(100 万 token),可处理整部视频和音频文件

开源模型

  • LLaVA 系列:早期开源 VLM 的代表,架构简洁(CLIP 编码器 + Projection + LLaMA),验证了 VLM 可以通过指令微调获得强大能力
  • InternVL2:商业级精度的开源 VLM,在多个基准上接近闭源模型水平
  • Qwen-VL(阿里巴巴):中文理解能力强,支持高分辨率图像和多图输入
  • Whisper(OpenAI):专注于语音识别的多语言模型,支持 99 种语言

生成式多模态模型

  • Stable Diffusion / SDXL / FLUX.1:文本生成图像
  • Sora(OpenAI):文本/图像生成视频,展示了视频生成的新范式
  • XTTS / Fish Speech:文本生成语音,支持声音克隆

本章结构导读

本章将系统介绍多模态 AI 的各个方向:

  • 视觉理解

    • 图像分类:从 AlexNet 到 ViT 的演进
    • 目标检测:YOLO 与 DETR 的技术路线
    • 图像分割:SAM 等通用分割模型
    • AI 图像生成:扩散模型与 FLUX.1
  • 语音处理

    • 语音识别(ASR):Whisper 及商业 API
    • 语音合成(TTS):神经 TTS 与声音克隆
    • Whisper 详解:架构、部署与最佳实践
  • 跨模态模型

    • 视觉语言模型(VLM):架构与主流产品
    • CLIP 与对比学习:图文对齐的基础技术
    • 文生图技术:Stable Diffusion 生态
    • 文生视频技术:Sora 与国内外产品对比