AI + 机器人
具身智能(Embodied AI)概念
具身智能(Embodied AI)是指 AI 系统不仅能在数字世界中处理信息,还能通过物理身体与真实世界进行交互。"具身"(Embodiment)强调了智能必须有感知-行动-反馈的物理循环。
为何具身很重要
哲学家和认知科学家长期认为,真正的智能依赖于身体与环境的互动。这一观点在 AI 领域的体现是:
- 纯文本 LLM 学到的是关于世界的"语言符号",但未必理解其物理含义
- "苹果是红色的"——LLM 知道这个事实,但它从未"看见"过红色
- 具身 Agent 通过与物理世界的直接交互,学习更扎实的物理知识
感知-推理-行动循环
具身 AI 系统的核心是持续的感知-推理-行动循环(Perception-Reasoning-Action Loop):
感知(Perception)
├─ 视觉:RGB 摄像头、深度摄像头(RGBD)
├─ 触觉:力传感器、触觉皮肤
├─ 音频:麦克风阵列
└─ 本体感觉:关节角度、速度、力矩
推理(Reasoning)
├─ 场景理解:识别物体、位置关系
├─ 任务规划:分解目标为子动作序列
└─ 预测:动作执行后环境如何变化
行动(Action)
├─ 高层指令:移动到 X 处、抓取 Y
├─ 低层控制:关节力矩/速度控制
└─ 反馈调整:根据执行结果实时修正
Vision-Language-Action(VLA)模型
VLA 是将视觉理解、语言推理和动作生成统一在单一模型中的新一代机器人控制架构。
关键进展
RT-2(Google DeepMind,2023)
- 基于 PaLI-X(120B 参数视觉语言模型)微调
- 将机器人动作 Token 化后与文本 Token 统一处理
- 关键发现:大模型的通用知识可以迁移到机器人控制(链式推理能力迁移)
- 示例:机器人理解"把哪个物体可以作为锤子使用"并执行(常识推理 → 动作)
π0(Physical Intelligence,2024)
- 专注于灵巧操作(Dexterous Manipulation)
- 训练数据来自多种机器人平台(跨机器人泛化)
- Flow Matching 动作生成,输出更流畅
VLA 的局限
- 推理速度慢,实时控制(1kHz)和推理延迟(100ms+)之间的矛盾
- 通常用高层 VLA 规划 + 低层专用控制器执行
- 分布外泛化(没见过的物体/场景)能力仍有限
代表产品
Figure 01 / Figure 02(Figure AI)
- 全尺寸人形机器人(1.7m,约 70kg)
- 与 BMW 合作,在汽车工厂进行试点部署
- 使用 GPT-4o 进行场景理解和任务规划(OpenAI 战略投资)
- Figure 02 改进了手部灵巧度和行走稳定性
Tesla Optimus
- 特斯拉进军人形机器人,目标是"最便宜的人形机器人"
- 利用 FSD(完全自动驾驶)技术栈中的视觉感知能力
- 已在特斯拉工厂内部测试,执行简单的零件搬运任务
- 马斯克目标:2026 年开始量产,长期价格低于 $20,000
Boston Dynamics Spot / Atlas
- Spot:四足机器狗,已商业化(约 $75,000),用于工业巡检、测绘
- Atlas(液压版,已停产):液压驱动,惊人的运动能力,但维护成本极高
- 新 Atlas(电驱动):全电动,更小更强,已与现代汽车合作进行工厂测试
- Boston Dynamics 的优势是运动控制,AI 理解能力相对较弱
基础模型在机器人中的应用
从零开始训练 vs 迁移学习
传统机器人学习方法对每个任务单独训练,需要大量示教数据。基础模型的迁移学习显著改变了这一局面:
- 预训练视觉编码器(CLIP、DINOv2)提取物体特征,在少量示教下实现新任务泛化
- LLM 提供常识推理,无需为"将苹果放在红色碗里"单独训练
数据集构建
机器人训练数据极其稀缺,社区在推动数据共享:
- Open X-Embodiment(Google + 36 个机构):包含 22 种机器人平台的 100 万+轨迹数据集
- DROID(斯坦福):多环境、多任务的通用机器人操作数据集
灵巧操作挑战
人手的灵巧性在机器人中极难复现:
技术难点
- 接触力控制:抓取鸡蛋和拧紧螺栓需要完全不同的力度,当前传感器和控制精度有限
- 柔性物体操作:折叠衣物、处理软管等柔性物体挑战极大(传统物理建模失效)
- 高速操作:人手可以每秒完成多次精细操作,机器人末端执行器速度和精度受硬件限制
解决方向
- 触觉传感器:高分辨率触觉传感器(如 GelSight)提供接触面的精细信息
- 示教学习(Learning from Demonstration):人类操作员直接示教,AI 学习精细技能
- 模拟加速:在高保真仿真器中大量训练,再迁移到真实机器人
Sim-to-Real(从仿真到真实)
在虚拟仿真环境中训练的策略,在真实机器人上往往表现变差,这一现象称为 Sim-to-Real Gap。
Gap 的来源
- 外观差距:仿真渲染与真实摄像头图像的视觉差异
- 物理差距:仿真器的物理模型(摩擦力、弹性)与真实世界的偏差
- 传感器噪声:真实传感器的噪声特性在仿真中难以完全复现
缓解策略
- Domain Randomization:在仿真中随机化纹理、光照、物体质量等参数,使模型对变化具有鲁棒性
- Domain Adaptation:通过少量真实数据对仿真训练的模型进行微调
- Photo-Realistic Simulation:提升仿真渲染质量(Isaac Sim + Omniverse 的 RTX 渲染)
产业化进度与时间线预测
当前商业化状态(2024-2025)
- 工业自动化(搬运、码垛):已商业化,AMR(自主移动机器人)市场成熟
- 工厂质检与巡检(Spot 类四足机器人):小规模商业化
- 人形机器人(Figure、Tesla Optimus):工厂试点阶段,尚未量产
预期时间线
- 2025-2027:人形机器人在受控工厂环境(汽车、电子制造)的规模化部署
- 2027-2030:人形机器人进入仓储物流、零售补货等半结构化场景
- 2030+:家庭机器人(完全非结构化环境)的实用化,仍面临巨大挑战
劳动力市场影响
机器人 + AI 的组合对劳动力市场的影响分析:
可能被替代的岗位
- 重复性体力劳动(流水线装配、仓储搬运、快递分拣)
- 高风险环境操作(矿山、化工、高温作业)
- 精细检测(视觉质检、测量)
新增岗位
- 机器人调试与维护工程师
- AI 训练数据采集(机器人示教员)
- 人机协作流程设计师
- 机器人伦理与安全审核
关键不确定性
- 机器人成本下降速度(当前人形机器人 > $100,000,目标 < $20,000)
- 在非结构化环境(餐厅、家庭)的实用性时间线
- 监管和社会接受度