技术深度解析
沈宇军的批判直击当前具身AI方法为何显得脆弱的本质。让我们首先剖析VLA与世界模型的技术局限,再审视他所提出的物理原生模型架构。
VLA模型:语言的天花板
以Google RT-2和开源项目OpenVLA为代表的VLA模型,将视觉token(来自冻结或微调的视觉编码器,如SigLIP)与语言token(来自预训练LLM)以及动作token(离散化或连续的电机指令)拼接在一起。模型在(图像、指令、动作)三元组数据集上进行端到端训练。问题在于,语言是对物理现实的有损压缩。考虑这样一个任务:“用0.3牛顿的力将销钉插入孔中。”没有人能用语言精确描述这个力的大小;我们是通过触觉反馈学会的。VLA模型依赖语言作为语义桥梁,便继承了这种有损性。它们能执行高级指令(“拿起杯子”),但在需要精确装配或柔顺操控(力的轮廓比视觉外观更重要)的任务中则力不从心。斯坦福大学IRIS实验室2024年的一项研究表明,RT-2在拾放任务上的成功率从87%骤降至需要力传感的销钉插入任务的34%——跌幅高达53%。
世界模型:模拟悖论
世界模型,例如DeepMind的DreamerV3或UC Berkeley的DayDreamer,试图学习环境的潜在动力学模型:给定状态和动作,预测下一个状态。在仿真环境中,它们实现了惊人的样本效率。但迁移到现实世界时,“模拟悖论”便暴露无遗:要发挥作用,世界模型必须足够精确以预测动作的后果,但现实世界充满了未建模的物理现象——静摩擦、塑性变形、热膨胀、传感器噪声。要使模型精确,需要指数级增长的参数和数据,从而导致对仿真伪影的过拟合。例如,在MuJoCo中训练的世界模型可能学会立方体总是以恒定摩擦系数滑动;而在现实中,摩擦力随湿度、表面磨损和接触角度而变化。模型随后便会灾难性地失败。沈宇军的观点是,世界模型试图在内部模拟整个物理宇宙,这对于实时控制而言既无必要也不可能。
物理原生模型:架构与Token
沈宇军提出的物理原生模型(PNM)基于一种根本不同的token空间。输入token不再是像素或词语,而是物理量的流:六轴力/扭矩读数、关节编码器位置与速度、惯性测量单元(IMU)数据以及本体感知信号。输出token则是电机扭矩或位置指令。该模型是一个Transformer或状态空间模型(例如Mamba),直接在这个物理token空间中学习策略,无需任何语义或视觉嵌入。训练范式是“物理自监督学习”:机器人通过随机电机“咿呀学语”探索环境,模型学习根据当前状态和动作预测下一个物理状态。这类似于人类婴儿通过触觉探索(而非语言标签)学习物体恒存性与可供性。一个关键洞见是:PNM无需“理解”一个物体是“杯子”;它只需学习抓取一个刚性、凹面物体的力-扭矩特征。这使得模型天然对视觉外观变化具有鲁棒性——一个涂成红色或蓝色的杯子具有相同的物理特征。
相关开源努力
虽然沈宇军在灵波的团队尚未发布公开代码库,但最接近的开源类比是Google DeepMind与UC Berkeley合作的DROID数据集和策略,该工作聚焦于大规模机器人操控数据。然而,DROID仍将视觉作为主要输入。更相关的是MuJoCo MPC(模型预测控制)框架,它使用物理仿真进行实时控制,但并非学习型模型。一个名为Physion(github.com/physion/physion)的新兴项目试图从视频中学习物理动力学,但它仍然以视觉为中心。业界正密切关注灵波是否可能发布开源版本,这或将加速整个领域的发展。
| 模型类型 | 输入模态 | 输出 | 真实世界成功率(销钉插入) | 训练数据需求 | 推理延迟 |
|---|---|---|---|---|---|
| VLA (RT-2) | 图像 + 文本 | 离散化动作 | 34% | 10万+ (图像, 文本, 动作) | 300ms |
| 世界模型 (DreamerV3) | 图像 | 潜在状态 + 动作 | 28% | 50万仿真步 | 500ms (含规划) |
| 物理原生 (提出中) | 力/扭矩/本体感知 | 连续扭矩 | 不适用 (仅仿真) | 1万次物理交互 | <10ms |
数据要点: 上表揭示了一个鲜明的权衡。VLA与世界模型需要海量数据集且延迟较高,但在需要精确力控的精密任务中仍然失败。