AI + 机器人

具身智能（Embodied AI）概念

具身智能（Embodied AI）是指 AI 系统不仅能在数字世界中处理信息，还能通过物理身体与真实世界进行交互。"具身"（Embodiment）强调了智能必须有感知-行动-反馈的物理循环。

为何具身很重要

哲学家和认知科学家长期认为，真正的智能依赖于身体与环境的互动。这一观点在 AI 领域的体现是：

纯文本 LLM 学到的是关于世界的"语言符号"，但未必理解其物理含义
"苹果是红色的"——LLM 知道这个事实，但它从未"看见"过红色
具身 Agent 通过与物理世界的直接交互，学习更扎实的物理知识

感知-推理-行动循环

具身 AI 系统的核心是持续的感知-推理-行动循环（Perception-Reasoning-Action Loop）：

感知（Perception）
  ├─ 视觉：RGB 摄像头、深度摄像头（RGBD）
  ├─ 触觉：力传感器、触觉皮肤
  ├─ 音频：麦克风阵列
  └─ 本体感觉：关节角度、速度、力矩

推理（Reasoning）
  ├─ 场景理解：识别物体、位置关系
  ├─ 任务规划：分解目标为子动作序列
  └─ 预测：动作执行后环境如何变化

行动（Action）
  ├─ 高层指令：移动到 X 处、抓取 Y
  ├─ 低层控制：关节力矩/速度控制
  └─ 反馈调整：根据执行结果实时修正

Vision-Language-Action（VLA）模型

VLA 是将视觉理解、语言推理和动作生成统一在单一模型中的新一代机器人控制架构。

关键进展

RT-2（Google DeepMind，2023）

基于 PaLI-X（120B 参数视觉语言模型）微调
将机器人动作 Token 化后与文本 Token 统一处理
关键发现：大模型的通用知识可以迁移到机器人控制（链式推理能力迁移）
示例：机器人理解"把哪个物体可以作为锤子使用"并执行（常识推理 → 动作）

π0（Physical Intelligence，2024）

专注于灵巧操作（Dexterous Manipulation）
训练数据来自多种机器人平台（跨机器人泛化）
Flow Matching 动作生成，输出更流畅

VLA 的局限

推理速度慢，实时控制（1kHz）和推理延迟（100ms+）之间的矛盾
通常用高层 VLA 规划 + 低层专用控制器执行
分布外泛化（没见过的物体/场景）能力仍有限

代表产品

Figure 01 / Figure 02（Figure AI）

全尺寸人形机器人（1.7m，约 70kg）
与 BMW 合作，在汽车工厂进行试点部署
使用 GPT-4o 进行场景理解和任务规划（OpenAI 战略投资）
Figure 02 改进了手部灵巧度和行走稳定性

Tesla Optimus

特斯拉进军人形机器人，目标是"最便宜的人形机器人"
利用 FSD（完全自动驾驶）技术栈中的视觉感知能力
已在特斯拉工厂内部测试，执行简单的零件搬运任务
马斯克目标：2026 年开始量产，长期价格低于 $20,000

Boston Dynamics Spot / Atlas

Spot：四足机器狗，已商业化（约 $75,000），用于工业巡检、测绘
Atlas（液压版，已停产）：液压驱动，惊人的运动能力，但维护成本极高
新 Atlas（电驱动）：全电动，更小更强，已与现代汽车合作进行工厂测试
Boston Dynamics 的优势是运动控制，AI 理解能力相对较弱

基础模型在机器人中的应用

从零开始训练 vs 迁移学习

传统机器人学习方法对每个任务单独训练，需要大量示教数据。基础模型的迁移学习显著改变了这一局面：

预训练视觉编码器（CLIP、DINOv2）提取物体特征，在少量示教下实现新任务泛化
LLM 提供常识推理，无需为"将苹果放在红色碗里"单独训练

数据集构建

机器人训练数据极其稀缺，社区在推动数据共享：

Open X-Embodiment（Google + 36 个机构）：包含 22 种机器人平台的 100 万+轨迹数据集
DROID（斯坦福）：多环境、多任务的通用机器人操作数据集

灵巧操作挑战

人手的灵巧性在机器人中极难复现：

技术难点

接触力控制：抓取鸡蛋和拧紧螺栓需要完全不同的力度，当前传感器和控制精度有限
柔性物体操作：折叠衣物、处理软管等柔性物体挑战极大（传统物理建模失效）
高速操作：人手可以每秒完成多次精细操作，机器人末端执行器速度和精度受硬件限制

解决方向

触觉传感器：高分辨率触觉传感器（如 GelSight）提供接触面的精细信息
示教学习（Learning from Demonstration）：人类操作员直接示教，AI 学习精细技能
模拟加速：在高保真仿真器中大量训练，再迁移到真实机器人

Sim-to-Real（从仿真到真实）

在虚拟仿真环境中训练的策略，在真实机器人上往往表现变差，这一现象称为 Sim-to-Real Gap。

Gap 的来源

外观差距：仿真渲染与真实摄像头图像的视觉差异
物理差距：仿真器的物理模型（摩擦力、弹性）与真实世界的偏差
传感器噪声：真实传感器的噪声特性在仿真中难以完全复现

缓解策略

Domain Randomization：在仿真中随机化纹理、光照、物体质量等参数，使模型对变化具有鲁棒性
Domain Adaptation：通过少量真实数据对仿真训练的模型进行微调
Photo-Realistic Simulation：提升仿真渲染质量（Isaac Sim + Omniverse 的 RTX 渲染）

产业化进度与时间线预测

当前商业化状态（2024-2025）

工业自动化（搬运、码垛）：已商业化，AMR（自主移动机器人）市场成熟
工厂质检与巡检（Spot 类四足机器人）：小规模商业化
人形机器人（Figure、Tesla Optimus）：工厂试点阶段，尚未量产

预期时间线

2025-2027：人形机器人在受控工厂环境（汽车、电子制造）的规模化部署
2027-2030：人形机器人进入仓储物流、零售补货等半结构化场景
2030+：家庭机器人（完全非结构化环境）的实用化，仍面临巨大挑战

劳动力市场影响

机器人 + AI 的组合对劳动力市场的影响分析：

可能被替代的岗位

重复性体力劳动（流水线装配、仓储搬运、快递分拣）
高风险环境操作（矿山、化工、高温作业）
精细检测（视觉质检、测量）

新增岗位

机器人调试与维护工程师
AI 训练数据采集（机器人示教员）
人机协作流程设计师
机器人伦理与安全审核

关键不确定性

机器人成本下降速度（当前人形机器人 > $100,000，目标 < $20,000）
在非结构化环境（餐厅、家庭）的实用性时间线
监管和社会接受度

具身智能（Embodied AI）概念​

为何具身很重要​

感知-推理-行动循环​

Vision-Language-Action（VLA）模型​

关键进展​

VLA 的局限​

代表产品​

Figure 01 / Figure 02（Figure AI）​

Tesla Optimus​

Boston Dynamics Spot / Atlas​

基础模型在机器人中的应用​

从零开始训练 vs 迁移学习​

数据集构建​

灵巧操作挑战​

技术难点​

解决方向​

Sim-to-Real（从仿真到真实）​

Gap 的来源​

缓解策略​

产业化进度与时间线预测​

当前商业化状态（2024-2025）​

预期时间线​

劳动力市场影响​

可能被替代的岗位​

新增岗位​

关键不确定性​