跳到主要内容

AI + 机器人

具身智能(Embodied AI)概念

具身智能(Embodied AI)是指 AI 系统不仅能在数字世界中处理信息,还能通过物理身体与真实世界进行交互。"具身"(Embodiment)强调了智能必须有感知-行动-反馈的物理循环。

为何具身很重要

哲学家和认知科学家长期认为,真正的智能依赖于身体与环境的互动。这一观点在 AI 领域的体现是:

  • 纯文本 LLM 学到的是关于世界的"语言符号",但未必理解其物理含义
  • "苹果是红色的"——LLM 知道这个事实,但它从未"看见"过红色
  • 具身 Agent 通过与物理世界的直接交互,学习更扎实的物理知识

感知-推理-行动循环

具身 AI 系统的核心是持续的感知-推理-行动循环(Perception-Reasoning-Action Loop):

感知(Perception)
├─ 视觉:RGB 摄像头、深度摄像头(RGBD)
├─ 触觉:力传感器、触觉皮肤
├─ 音频:麦克风阵列
└─ 本体感觉:关节角度、速度、力矩

推理(Reasoning)
├─ 场景理解:识别物体、位置关系
├─ 任务规划:分解目标为子动作序列
└─ 预测:动作执行后环境如何变化

行动(Action)
├─ 高层指令:移动到 X 处、抓取 Y
├─ 低层控制:关节力矩/速度控制
└─ 反馈调整:根据执行结果实时修正

Vision-Language-Action(VLA)模型

VLA 是将视觉理解、语言推理和动作生成统一在单一模型中的新一代机器人控制架构。

关键进展

RT-2(Google DeepMind,2023)

  • 基于 PaLI-X(120B 参数视觉语言模型)微调
  • 将机器人动作 Token 化后与文本 Token 统一处理
  • 关键发现:大模型的通用知识可以迁移到机器人控制(链式推理能力迁移)
  • 示例:机器人理解"把哪个物体可以作为锤子使用"并执行(常识推理 → 动作)

π0(Physical Intelligence,2024)

  • 专注于灵巧操作(Dexterous Manipulation)
  • 训练数据来自多种机器人平台(跨机器人泛化)
  • Flow Matching 动作生成,输出更流畅

VLA 的局限

  • 推理速度慢,实时控制(1kHz)和推理延迟(100ms+)之间的矛盾
  • 通常用高层 VLA 规划 + 低层专用控制器执行
  • 分布外泛化(没见过的物体/场景)能力仍有限

代表产品

Figure 01 / Figure 02(Figure AI)

  • 全尺寸人形机器人(1.7m,约 70kg)
  • 与 BMW 合作,在汽车工厂进行试点部署
  • 使用 GPT-4o 进行场景理解和任务规划(OpenAI 战略投资)
  • Figure 02 改进了手部灵巧度和行走稳定性

Tesla Optimus

  • 特斯拉进军人形机器人,目标是"最便宜的人形机器人"
  • 利用 FSD(完全自动驾驶)技术栈中的视觉感知能力
  • 已在特斯拉工厂内部测试,执行简单的零件搬运任务
  • 马斯克目标:2026 年开始量产,长期价格低于 $20,000

Boston Dynamics Spot / Atlas

  • Spot:四足机器狗,已商业化(约 $75,000),用于工业巡检、测绘
  • Atlas(液压版,已停产):液压驱动,惊人的运动能力,但维护成本极高
  • 新 Atlas(电驱动):全电动,更小更强,已与现代汽车合作进行工厂测试
  • Boston Dynamics 的优势是运动控制,AI 理解能力相对较弱

基础模型在机器人中的应用

从零开始训练 vs 迁移学习

传统机器人学习方法对每个任务单独训练,需要大量示教数据。基础模型的迁移学习显著改变了这一局面:

  • 预训练视觉编码器(CLIP、DINOv2)提取物体特征,在少量示教下实现新任务泛化
  • LLM 提供常识推理,无需为"将苹果放在红色碗里"单独训练

数据集构建

机器人训练数据极其稀缺,社区在推动数据共享:

  • Open X-Embodiment(Google + 36 个机构):包含 22 种机器人平台的 100 万+轨迹数据集
  • DROID(斯坦福):多环境、多任务的通用机器人操作数据集

灵巧操作挑战

人手的灵巧性在机器人中极难复现:

技术难点

  • 接触力控制:抓取鸡蛋和拧紧螺栓需要完全不同的力度,当前传感器和控制精度有限
  • 柔性物体操作:折叠衣物、处理软管等柔性物体挑战极大(传统物理建模失效)
  • 高速操作:人手可以每秒完成多次精细操作,机器人末端执行器速度和精度受硬件限制

解决方向

  • 触觉传感器:高分辨率触觉传感器(如 GelSight)提供接触面的精细信息
  • 示教学习(Learning from Demonstration):人类操作员直接示教,AI 学习精细技能
  • 模拟加速:在高保真仿真器中大量训练,再迁移到真实机器人

Sim-to-Real(从仿真到真实)

在虚拟仿真环境中训练的策略,在真实机器人上往往表现变差,这一现象称为 Sim-to-Real Gap。

Gap 的来源

  • 外观差距:仿真渲染与真实摄像头图像的视觉差异
  • 物理差距:仿真器的物理模型(摩擦力、弹性)与真实世界的偏差
  • 传感器噪声:真实传感器的噪声特性在仿真中难以完全复现

缓解策略

  • Domain Randomization:在仿真中随机化纹理、光照、物体质量等参数,使模型对变化具有鲁棒性
  • Domain Adaptation:通过少量真实数据对仿真训练的模型进行微调
  • Photo-Realistic Simulation:提升仿真渲染质量(Isaac Sim + Omniverse 的 RTX 渲染)

产业化进度与时间线预测

当前商业化状态(2024-2025)

  • 工业自动化(搬运、码垛):已商业化,AMR(自主移动机器人)市场成熟
  • 工厂质检与巡检(Spot 类四足机器人):小规模商业化
  • 人形机器人(Figure、Tesla Optimus):工厂试点阶段,尚未量产

预期时间线

  • 2025-2027:人形机器人在受控工厂环境(汽车、电子制造)的规模化部署
  • 2027-2030:人形机器人进入仓储物流、零售补货等半结构化场景
  • 2030+:家庭机器人(完全非结构化环境)的实用化,仍面临巨大挑战

劳动力市场影响

机器人 + AI 的组合对劳动力市场的影响分析:

可能被替代的岗位

  • 重复性体力劳动(流水线装配、仓储搬运、快递分拣)
  • 高风险环境操作(矿山、化工、高温作业)
  • 精细检测(视觉质检、测量)

新增岗位

  • 机器人调试与维护工程师
  • AI 训练数据采集(机器人示教员)
  • 人机协作流程设计师
  • 机器人伦理与安全审核

关键不确定性

  • 机器人成本下降速度(当前人形机器人 > $100,000,目标 < $20,000)
  • 在非结构化环境(餐厅、家庭)的实用性时间线
  • 监管和社会接受度