物理原生模型：机器人领域的“安卓时刻”比你想象的更近

Q: 如果想继续追踪“Ant Group Lingbo Robotics physical native model vs world models comparison”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。

在AIGC2026大会的一场引发热议的主题演讲中，蚂蚁集团灵波机器人事业部高管沈宇军对具身智能领域的两大主流范式——视觉-语言-动作模型（VLA）与世界模型——进行了全面而犀利的批判。他认为，这两者存在根本性缺陷，因为它们都依赖于以人类为中心的表示方式——语言与视觉——而这恰恰不适合原始物理操控的需求。VLA模型尽管在基准测试中表现亮眼，但在需要感知摩擦力、柔顺性或无法用语言描述的微观形变的任务中，往往以失败告终。世界模型则陷入“模拟悖论”：越是追求精确，在充满噪声的真实环境中就越发计算棘手且脆弱不堪。沈宇军提出的替代方案——“物理原生模型”——则彻底抛弃语义与视觉，仅基于力、扭矩与本体感知信号运行。这一思路若得以实现，可能彻底改写机器人智能的发展路径，并催生一个类似安卓的开源生态。

技术深度解析

沈宇军的批判直击当前具身AI方法为何显得脆弱的本质。让我们首先剖析VLA与世界模型的技术局限，再审视他所提出的物理原生模型架构。

VLA模型：语言的天花板

以Google RT-2和开源项目OpenVLA为代表的VLA模型，将视觉token（来自冻结或微调的视觉编码器，如SigLIP）与语言token（来自预训练LLM）以及动作token（离散化或连续的电机指令）拼接在一起。模型在（图像、指令、动作）三元组数据集上进行端到端训练。问题在于，语言是对物理现实的有损压缩。考虑这样一个任务：“用0.3牛顿的力将销钉插入孔中。”没有人能用语言精确描述这个力的大小；我们是通过触觉反馈学会的。VLA模型依赖语言作为语义桥梁，便继承了这种有损性。它们能执行高级指令（“拿起杯子”），但在需要精确装配或柔顺操控（力的轮廓比视觉外观更重要）的任务中则力不从心。斯坦福大学IRIS实验室2024年的一项研究表明，RT-2在拾放任务上的成功率从87%骤降至需要力传感的销钉插入任务的34%——跌幅高达53%。

世界模型：模拟悖论

世界模型，例如DeepMind的DreamerV3或UC Berkeley的DayDreamer，试图学习环境的潜在动力学模型：给定状态和动作，预测下一个状态。在仿真环境中，它们实现了惊人的样本效率。但迁移到现实世界时，“模拟悖论”便暴露无遗：要发挥作用，世界模型必须足够精确以预测动作的后果，但现实世界充满了未建模的物理现象——静摩擦、塑性变形、热膨胀、传感器噪声。要使模型精确，需要指数级增长的参数和数据，从而导致对仿真伪影的过拟合。例如，在MuJoCo中训练的世界模型可能学会立方体总是以恒定摩擦系数滑动；而在现实中，摩擦力随湿度、表面磨损和接触角度而变化。模型随后便会灾难性地失败。沈宇军的观点是，世界模型试图在内部模拟整个物理宇宙，这对于实时控制而言既无必要也不可能。

物理原生模型：架构与Token

沈宇军提出的物理原生模型（PNM）基于一种根本不同的token空间。输入token不再是像素或词语，而是物理量的流：六轴力/扭矩读数、关节编码器位置与速度、惯性测量单元（IMU）数据以及本体感知信号。输出token则是电机扭矩或位置指令。该模型是一个Transformer或状态空间模型（例如Mamba），直接在这个物理token空间中学习策略，无需任何语义或视觉嵌入。训练范式是“物理自监督学习”：机器人通过随机电机“咿呀学语”探索环境，模型学习根据当前状态和动作预测下一个物理状态。这类似于人类婴儿通过触觉探索（而非语言标签）学习物体恒存性与可供性。一个关键洞见是：PNM无需“理解”一个物体是“杯子”；它只需学习抓取一个刚性、凹面物体的力-扭矩特征。这使得模型天然对视觉外观变化具有鲁棒性——一个涂成红色或蓝色的杯子具有相同的物理特征。

相关开源努力

虽然沈宇军在灵波的团队尚未发布公开代码库，但最接近的开源类比是Google DeepMind与UC Berkeley合作的DROID数据集和策略，该工作聚焦于大规模机器人操控数据。然而，DROID仍将视觉作为主要输入。更相关的是MuJoCo MPC（模型预测控制）框架，它使用物理仿真进行实时控制，但并非学习型模型。一个名为Physion（github.com/physion/physion）的新兴项目试图从视频中学习物理动力学，但它仍然以视觉为中心。业界正密切关注灵波是否可能发布开源版本，这或将加速整个领域的发展。

| 模型类型 | 输入模态 | 输出 | 真实世界成功率（销钉插入） | 训练数据需求 | 推理延迟 |
|---|---|---|---|---|---|
| VLA (RT-2) | 图像 + 文本 | 离散化动作 | 34% | 10万+ (图像, 文本, 动作) | 300ms |
| 世界模型 (DreamerV3) | 图像 | 潜在状态 + 动作 | 28% | 50万仿真步 | 500ms (含规划) |
| 物理原生 (提出中) | 力/扭矩/本体感知 | 连续扭矩 | 不适用 (仅仿真) | 1万次物理交互 | <10ms |

数据要点： 上表揭示了一个鲜明的权衡。VLA与世界模型需要海量数据集且延迟较高，但在需要精确力控的精密任务中仍然失败。

时间归档

延伸阅读

常见问题

这篇关于“Physical Native Models: The Android Moment for Robotics Is Closer Than You Think”的文章讲了什么？

In a provocative keynote at the AIGC2026 conference, Shen Yujun, a senior executive at Ant Group's Lingbo Robotics unit, delivered a sweeping critique of the two dominant paradigms…

从“What is a physical native model in robotics and how does it differ from VLA?”看，这件事为什么值得关注？

Shen Yujun's critique cuts to the core of why current embodied AI approaches feel brittle. Let's dissect the technical limitations of VLA and world models, then examine the proposed physical native model architecture. VL…

如果想继续追踪“Ant Group Lingbo Robotics physical native model vs world models comparison”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。