技术深度解析
具身认知的核心论点是:身体塑造了心智。用AI术语来说,这意味着智能体的物理形态——其传感器、执行器和形态结构——直接约束并赋能了它能发展的智能类型。这是对以大型语言模型(LLM)为主导范式的直接挑战,后者将智能视为文本上的纯统计模式匹配问题。
感觉运动回路
具身AI的核心是感觉运动回路:智能体通过传感器(摄像头、触觉、本体感觉)感知世界,处理这些信息,然后通过执行器(电机、夹爪、轮子)采取行动。行动的结果改变世界,然后世界再次被感知。这个连续的反馈回路就是学习的引擎。与从静态数据集学习的LLM不同,具身智能体从自身行动的后果中学习。
世界模型:内部模拟器
一个关键的技术组件是“世界模型”——世界如何运行的内部表征。这不是语言模型,而是关于物理、物体恒存性和因果关系的预测模型。世界模型允许智能体在执行动作之前模拟可能的行动,从而实现规划和推理。该领域一个里程碑式的开源项目是Google DeepMind的Danijar Hafner开发的DreamerV3。DreamerV3仅从像素和奖励中学习世界模型,然后利用该模型“想象”未来的轨迹,并完全在其潜在空间内训练策略。它在从Atari游戏到机器人操作的各种控制任务上达到了最先进的性能。该仓库(github.com/danijar/dreamerv3)已获得超过5000颗星,并持续作为基础性参考。
架构:从Transformer到主动感知
具身架构与纯Transformer堆栈有根本不同。一个典型的具身智能体可能结合:
- 视觉编码器(例如Vision Transformer或ResNet)处理摄像头输入。
- 本体感觉编码器处理关节角度和力。
- 动作解码器输出电机指令。
- 世界模型根据当前状态和动作预测下一状态。
- 记忆模块(通常是LSTM或Transformer)处理时间依赖性。
一个关键见解是:感知不是被动的。在具身系统中,智能体必须主动决定看向何处或如何移动其传感器以收集信息。这被称为“主动感知”,是生物智能的标志,而脱离肉体的LLM完全缺乏这一点。
具身AI的基准测试
衡量具身AI的进展极其困难,因为任务是物理性的且多样化。然而,一些标准化基准已经出现:
| 基准 | 描述 | 关键指标 | 最高分(截至2025年第二季度) |
|---|---|---|---|
| MetaWorld | 50项机器人操作任务(推、拉、组装) | 成功率 | 95%(DreamerV3) |
| Habitat 2.0 | 具身智能体在3D室内场景中的导航与交互 | 成功率 / SPL | 78%(SkillNet) |
| MineRL | 智能体从原始像素学习玩Minecraft | 钻石获取率 | 12%(VPT) |
| CALVIN | 带语言指令的长时域操作 | 任务完成率 | 85%(RT-2 + MoE) |
数据要点: 尽管在单个基准上的成功率很高,但没有一个智能体能在所有基准上表现出色。模拟与现实之间的差距(sim-to-real迁移)仍然是最大的技术障碍。最好的模拟器仍然无法捕捉真实世界的摩擦、变形和随机性。
关键参与者与案例研究
具身AI的格局是科技巨头、敏捷初创公司和学术实验室的战场。策略分歧明显。
巨头:Google DeepMind、Tesla和NVIDIA
- Google DeepMind是智力引擎。其RT-2和RT-X模型代表了一种混合方法:它们在互联网规模的数据上训练一个大型视觉-语言-动作模型,然后在机器人数据上进行微调。结果是一个能够遵循语言指令执行新颖任务的模型,例如“拿起那只灭绝的动物”(一个恐龙玩具)。他们的策略是利用大规模计算来弥合语言理解与物理行动之间的鸿沟。
- Tesla采取了截然不同的方法。其Optimus机器人从设计之初就面向大规模制造。Tesla的优势在于垂直整合:他们控制硬件(执行器、传感器、电池)、软件(FSD计算机、神经网络)和制造过程。其端到端学习方法,类似于他们的自动驾驶堆栈,旨在从像素到电机扭矩学习一切,而不依赖显式的世界模型。
- NVIDIA是“卖铲子的人”。其Isaac Sim平台是训练具身智能体的领先模拟环境。他们还提供Jetson