世界模型
世界模型定义
世界模型(World Model)是 AI 研究中的一个核心概念,指 AI 系统内部构建的对世界状态及其变化规律的表征(Representation)。一个理想的世界模型应该能够:
- 理解当前状态:准确感知并表示当前世界(或特定环境)的状态
- 预测未来状态:给定动作或时间流逝,预测世界状态如何演变
- 支持规划:基于对世界的理解,规划达成目标的行动序列
- 反事实推理:"如果做了 A 而不是 B,世界会怎样?"
世界模型与感知模型("这是什么?")的区别在于,世界模型关注的是动态性和因果性("这会变成什么?"、"为什么会这样?")。
Sora 作为世界视频模拟器
OpenAI 在 2024 年 2 月发布的 Sora 引发了 AI 社区对世界模型的广泛讨论。OpenAI 将 Sora 定位为"世界模拟器":
Sora 的能力
- 生成长达 1 分钟的高质量一致性视频
- 维持视频中物理对象的持续性(镜头切换后对象仍保持外观一致)
- 理解基本的物体运动规律(落体、液体流动、碰撞)
- 根据文字描述生成复杂的多镜头视频叙事
物理规律的理解与违背
Sora 并未被教导物理定律,而是从大量视频数据中"隐式学习"了物理规律。然而:
- 成功案例:流体运动、光影变化、刚体碰撞通常符合物理常识
- 失败案例:人手的手指数量错误(幻觉)、物体穿透(玻璃杯穿过桌面)、长视频中的时序不一致
- 含义:Sora 学到的不是物理定律的符号表示,而是"什么看起来像物理"的统计模式
这引发了一个深层问题:仅凭视频预测任务能否真正学到世界模型,还是只是高级的视频统计规律拟合?
语言模型是否构建了世界模型
这是当前 AI 研究中最具争议的问题之一。
支持"是"的证据
- 空间推理:GPT-4 能够正确回答"如果我站在 A 的东边,B 在 A 的北边,那么 B 在我的哪个方向?"
- 时序推理:能够正确处理时间顺序、因果关系、条件依赖
- 心智理论:能够通过"错误信念"测试(例:Sally-Anne 测试),理解他人的信念状态可能与事实不符
- Emergent World Models:研究发现,在 Othello 棋盘状态预测任务上训练的 LLM,内部形成了对棋盘状态的线性表示(Li et al., 2023)
支持"否"的证据
- 系统性错误:LLM 在需要多步物理仿真的问题上经常犯简单错误
- 缺乏接地性(Grounding Problem):LLM 的知识来自文本符号,缺乏与物理世界的直接连接
- 分布外失败:在训练数据中未见过的物理场景,LLM 的表现显著下降
Yann LeCun 的 JEPA(联合嵌入预测架构)
Meta 首席 AI 科学家 Yann LeCun 是世界模型研究的重要倡导者,他认为当前 LLM 无法真正理解世界,并提出了 JEPA(Joint Embedding Predictive Architecture)作为替代方向:
JEPA 的核心思想
- 传统自回归 LLM 预测原始像素/Token,学到的是"表面统计"
- JEPA 在抽象表示空间中进行预测:不直接预测像素,而是预测未来帧的特征表示
- 通过预测表示而非原始数据,模型被迫学习更抽象、更有意义的世界状态表示
I-JEPA
Meta 发布的图像版 JEPA:
- 在未标注图像上进行自监督预训练
- 预测图像不同区域在表示空间的特征,而非像素值
- 在下游任务上的迁移学习效率优于 MAE(Masked Autoencoder)
V-JEPA
视频版 JEPA:
- 在视频帧序列上进行预测任务
- 目标是构建能够预测物理世界演变的视频表示
- Yann LeCun 认为这是通向真正世界模型的路径之一
具身智能对世界模型的需求
具身 AI(Embodied AI,能在物理世界中行动的 AI)对世界模型有最强烈的需求:
为什么机器人需要世界模型
- 动作规划:机器人在拿起杯子前,需要预测不同抓取方式的结果
- 安全性:机器人需要预测动作的副作用(推一个物体可能导致另一个物体倒塌)
- 泛化:在未见过的环境中行动,依赖对物理规律的一般化理解
当前具身 AI 的世界模型状态
- 基于仿真的世界模型:在 IsaacGym、MuJoCo 等仿真器中训练,模型显式地维护物理状态
- 基于真实数据的隐式世界模型:通过大量真实机器人操作数据,模型隐式学习物理规律
- 视觉-语言-动作(VLA)模型:将感知、推理和动作规划统一在一个模型中
World Model 在规划与决策中的作用
成熟的世界模型可以支持基于模型的规划(Model-Based Planning):
- 树搜索:在世界模型的预测中进行蒙特卡洛树搜索(MCTS),找到最优动作序列
- 想象力规划:在"头脑中"(世界模型内部)模拟执行不同方案,选择预期结果最好的方案
- AlphaZero 的启发:AlphaZero 使用规则定义的精确世界模型(棋盘规则)进行规划,取得超人水平。将类似能力扩展到开放世界是关键挑战
研究前沿与挑战
评估困难
- 世界模型的能力难以客观测量(不存在统一的 World Model Benchmark)
- 测试覆盖的物理场景难以穷举
数据效率
- 人类儿童通过极少的物理交互即可学到扎实的直觉物理知识
- 当前 AI 需要海量视频数据才能学到有限的物理知识
- 如何提高物理学习的数据效率是开放问题
从预测到控制
- 能预测世界的模型不一定能控制世界
- 将世界模型与强化学习结合(Model-Based RL)面临样本效率和模型错误累积等挑战