世界模型

世界模型定义

世界模型（World Model）是 AI 研究中的一个核心概念，指 AI 系统内部构建的对世界状态及其变化规律的表征（Representation）。一个理想的世界模型应该能够：

理解当前状态：准确感知并表示当前世界（或特定环境）的状态
预测未来状态：给定动作或时间流逝，预测世界状态如何演变
支持规划：基于对世界的理解，规划达成目标的行动序列
反事实推理："如果做了 A 而不是 B，世界会怎样？"

世界模型与感知模型（"这是什么？"）的区别在于，世界模型关注的是动态性和因果性（"这会变成什么？"、"为什么会这样？"）。

Sora 作为世界视频模拟器

OpenAI 在 2024 年 2 月发布的 Sora 引发了 AI 社区对世界模型的广泛讨论。OpenAI 将 Sora 定位为"世界模拟器"：

Sora 的能力

生成长达 1 分钟的高质量一致性视频
维持视频中物理对象的持续性（镜头切换后对象仍保持外观一致）
理解基本的物体运动规律（落体、液体流动、碰撞）
根据文字描述生成复杂的多镜头视频叙事

物理规律的理解与违背

Sora 并未被教导物理定律，而是从大量视频数据中"隐式学习"了物理规律。然而：

成功案例：流体运动、光影变化、刚体碰撞通常符合物理常识
失败案例：人手的手指数量错误（幻觉）、物体穿透（玻璃杯穿过桌面）、长视频中的时序不一致
含义：Sora 学到的不是物理定律的符号表示，而是"什么看起来像物理"的统计模式

这引发了一个深层问题：仅凭视频预测任务能否真正学到世界模型，还是只是高级的视频统计规律拟合？

语言模型是否构建了世界模型

这是当前 AI 研究中最具争议的问题之一。

支持"是"的证据

空间推理：GPT-4 能够正确回答"如果我站在 A 的东边，B 在 A 的北边，那么 B 在我的哪个方向？"
时序推理：能够正确处理时间顺序、因果关系、条件依赖
心智理论：能够通过"错误信念"测试（例：Sally-Anne 测试），理解他人的信念状态可能与事实不符
Emergent World Models：研究发现，在 Othello 棋盘状态预测任务上训练的 LLM，内部形成了对棋盘状态的线性表示（Li et al., 2023）

支持"否"的证据

系统性错误：LLM 在需要多步物理仿真的问题上经常犯简单错误
缺乏接地性（Grounding Problem）：LLM 的知识来自文本符号，缺乏与物理世界的直接连接
分布外失败：在训练数据中未见过的物理场景，LLM 的表现显著下降

Yann LeCun 的 JEPA（联合嵌入预测架构）

Meta 首席 AI 科学家 Yann LeCun 是世界模型研究的重要倡导者，他认为当前 LLM 无法真正理解世界，并提出了 JEPA（Joint Embedding Predictive Architecture）作为替代方向：

JEPA 的核心思想

传统自回归 LLM 预测原始像素/Token，学到的是"表面统计"
JEPA 在抽象表示空间中进行预测：不直接预测像素，而是预测未来帧的特征表示
通过预测表示而非原始数据，模型被迫学习更抽象、更有意义的世界状态表示

I-JEPA

Meta 发布的图像版 JEPA：

在未标注图像上进行自监督预训练
预测图像不同区域在表示空间的特征，而非像素值
在下游任务上的迁移学习效率优于 MAE（Masked Autoencoder）

V-JEPA

视频版 JEPA：

在视频帧序列上进行预测任务
目标是构建能够预测物理世界演变的视频表示
Yann LeCun 认为这是通向真正世界模型的路径之一

具身智能对世界模型的需求

具身 AI（Embodied AI，能在物理世界中行动的 AI）对世界模型有最强烈的需求：

为什么机器人需要世界模型

动作规划：机器人在拿起杯子前，需要预测不同抓取方式的结果
安全性：机器人需要预测动作的副作用（推一个物体可能导致另一个物体倒塌）
泛化：在未见过的环境中行动，依赖对物理规律的一般化理解

当前具身 AI 的世界模型状态

基于仿真的世界模型：在 IsaacGym、MuJoCo 等仿真器中训练，模型显式地维护物理状态
基于真实数据的隐式世界模型：通过大量真实机器人操作数据，模型隐式学习物理规律
视觉-语言-动作（VLA）模型：将感知、推理和动作规划统一在一个模型中

World Model 在规划与决策中的作用

成熟的世界模型可以支持基于模型的规划（Model-Based Planning）：

树搜索：在世界模型的预测中进行蒙特卡洛树搜索（MCTS），找到最优动作序列
想象力规划：在"头脑中"（世界模型内部）模拟执行不同方案，选择预期结果最好的方案
AlphaZero 的启发：AlphaZero 使用规则定义的精确世界模型（棋盘规则）进行规划，取得超人水平。将类似能力扩展到开放世界是关键挑战

研究前沿与挑战

评估困难

世界模型的能力难以客观测量（不存在统一的 World Model Benchmark）
测试覆盖的物理场景难以穷举

数据效率

人类儿童通过极少的物理交互即可学到扎实的直觉物理知识
当前 AI 需要海量视频数据才能学到有限的物理知识
如何提高物理学习的数据效率是开放问题

从预测到控制

能预测世界的模型不一定能控制世界
将世界模型与强化学习结合（Model-Based RL）面临样本效率和模型错误累积等挑战

世界模型定义​

Sora 作为世界视频模拟器​

Sora 的能力​

物理规律的理解与违背​

语言模型是否构建了世界模型​

支持"是"的证据​

支持"否"的证据​

Yann LeCun 的 JEPA（联合嵌入预测架构）​

JEPA 的核心思想​

I-JEPA​

V-JEPA​

具身智能对世界模型的需求​

为什么机器人需要世界模型​

当前具身 AI 的世界模型状态​

World Model 在规划与决策中的作用​

研究前沿与挑战​

评估困难​

数据效率​

从预测到控制​