技术深度解析
核心的技术转变是从反应式控制转向预测性世界建模。传统机器人技术依赖于预编程的运动路径、传感器反馈回路和精心构建的环境。而新范式——由Yann LeCun的“联合嵌入预测架构”(JEPA)和李飞飞在空间智能方面的研究等所倡导——旨在赋予机器人对物理的因果理解:杯子被推下桌子会掉落,门是通过转动把手而非蛮力打开。
在架构层面,这些系统将用于语义理解的大型视觉语言模型(VLM)与用于预测未来状态的学习动力学模型相结合。例如,Google DeepMind的“RT-2”及其后续版本采用基于Transformer的架构,接收视频帧和机器人动作,输出场景的文本描述以及未来关节位置的概率分布。关键创新在于使用“潜在动作空间”——模型不预测精确的扭矩,而是预测“抓取”或“滑动”等高层次意图,然后由低层控制器进行细化。
一个关键的推动因素是微分物理模拟器的兴起。NVIDIA的Isaac Sim和开源MuJoCo(现由Google维护)已升级为GPU加速的微分物理引擎,允许梯度从任务损失(例如“拿起积木”)反向传播通过模拟来优化策略。这实现了前所未有的保真度的“仿真到现实”迁移。MIT CSAIL团队的GitHub仓库“diffsim”因其微分刚体动力学已获得超过4000颗星,在某些情况下,它允许控制策略的端到端训练,无需任何微调即可迁移到真实硬件。
实时适应是下一个前沿。当前的世界模型是在海量数据集上离线训练,然后在部署时冻结。下一代模型——由Covariant和Physical Intelligence等初创公司探索——采用在线微调:机器人根据自身感知流持续更新其世界模型。这在计算上非常昂贵——在A100 GPU上对70亿参数模型进行一次梯度更新需要数秒,远慢于实时控制的要求。研究人员正在探索“专家混合”架构,其中只有一小部分参数(“适应头”)在线更新,而核心世界模型保持静态。加州大学伯克利分校BAIR实验室的一份预印本显示,与冻结模型相比,使用在线适应在新物体操作任务上的成功率提高了40%。
| 基准测试 | 模型 | 成功率(新物体) | 延迟(每次推理毫秒) | 训练数据(小时) |
|---|---|---|---|---|
| RLBench(10个任务) | RT-2(冻结) | 62.3% | 45 | 10,000 |
| RLBench(10个任务) | RT-2 + 在线适应 | 87.1% | 210 | 10,000 + 2在线 |
| CALVIN(长时域) | 基于JEPA | 54.7% | 78 | 5,000 |
| CALVIN(长时域) | 本体感知VLM | 71.2% | 112 | 8,000 |
数据要点: 在线适应显著提升了新任务的性能,但代价是4-5倍的延迟增加,使其目前不适用于高速工业应用。泛化能力与速度之间的权衡仍然是核心工程挑战。
关键玩家与案例研究
该领域已分化为两大阵营:“通用派”为任何机器人构建通用大脑,“垂直派”针对特定任务进行优化。通用派包括Covariant(由Pieter Abbeel、Rocky Duan和Peter Chen创立),该公司已筹集超过7亿美元,用于构建“机器人大脑”——一个可以控制任何机器人臂的基础模型。其最新模型“RFM-2”(机器人基础模型2)在来自20多个仓库的100多种不同机器人类型的数据上训练。Covariant的策略是授权大脑而非硬件,这是一种纯软件玩法。
在垂直派方面,Figure AI(由OpenAI、微软和杰夫·贝索斯支持)正在构建一个具有紧密集成大脑的人形机器人。其Figure 02机器人于2026年初发布,使用在宝马工厂运行的500台机器人的第一人称视角视频训练的定制VLM。关键洞察是:通过同时控制硬件和软件,Figure可以针对其特定的执行器动力学优化大脑,从而在第三方机械臂上实现比通用模型更平滑的运动。然而,这以灵活性为代价——Figure 02的大脑无法轻易移植到不同的机器人上。
第三个新兴类别是“仿真优先”方法,由Skild AI(从卡内基梅隆大学分拆)引领。Skild构建了一个庞大的12亿参数世界模型,完全在仿真环境中(使用NVIDIA Isaac Gym)在10,000个虚拟环境中训练。他们的主张是:该模型无需任何真实世界微调即可泛化到真实世界任务。在一次公开演示中,一个由Skild控制的机器人臂成功打开了儿童安全药瓶——这项任务需要精确的力控制。