Jim Fan 宣告 VLA 与遥操作已死:NVIDIA 的世界模型革命

May 2026
world model归档:May 2026
NVIDIA 顶级机器人专家 Jim Fan 宣称视觉-语言-动作(VLA)模型与遥操作技术“已死”。这并非危言耸听,而是对当前机器人学习范式的根本性质疑。AINews 深度剖析世界模型转向及其对行业的意义。

在一份极具挑衅性的重磅声明中,NVIDIA 通用机器人具身智能体(GEAR)实验室负责人 Jim Fan 正式宣告,视觉-语言-动作(VLA)模型与遥操作技术已经“死亡”。这绝非随口一说的个人观点,而是来自这家统治 AI 算力的巨头发出的精心计算过的信号。Fan 认为,当前主导的范式——即通过将视觉、语言和动作拼接成一个单一模型来训练机器人,或由人类操作员通过遥操作手动引导机器人运动——是一条死胡同。他指出,核心问题在于这两种方法都无法实现规模化扩展。VLA 模型虽然在受控演示中表现惊艳,但面对陌生物体、光照变化或空间布局时,会出现灾难性的泛化失败。而遥操作作为数据采集手段,每项新任务都需要人类花费数百次轨迹引导,成本高昂且数据多样性受限于人类的耐心与灵巧度。Fan 提出的替代方案是世界模型方法,其核心代表是 NVIDIA 的 Cosmos 平台与 Isaac Gym 模拟器。这一转向意味着机器人学习将从“模仿人类演示”转向“在模拟中理解物理因果”,而 NVIDIA 的硬件生态正是这一新范式的最大护城河。

技术深度解析

Jim Fan 的宣言根植于对现代机器人学习模型架构的根本性质疑。VLA 范式——以 Google 的 RT-2 和 PALM-E 等模型为代表——将机器人控制视为一个序列到序列的问题:视觉编码器(如 ViT)处理摄像头输入,语言模型(如 PaLM)解析任务指令,然后一个小型动作解码器输出关节角度或末端执行器位姿。问题在于,这是一种浅层映射。模型学习的是像素、词汇与电机指令之间的相关性,但其内部没有任何物理表征——没有对重力、摩擦力、惯性或物体恒存性的理解。当一个 VLA 模型在 10,000 次“拿起红色杯子”的演示上训练后,遇到一个半透明杯子或处于阴影中的杯子时,它会失败,因为像素分布发生了偏移,而不是因为它缺乏“杯子性”的概念。

与此同时,遥操作是为这些模型提供数据的数据采集方法。ALOHA 平台或 DROID 等系统使用人类操作员远程控制机器人手臂,生成高质量的演示数据。但这在规模化上是一条死路。每项新任务都需要人类通过物理或虚拟方式引导机器人完成数百条轨迹。每次演示的成本高昂,数据的多样性受限于人类的耐心与灵巧度。例如,DROID 数据集包含超过 350 小时的遥操作数据,覆盖 80 项任务,但即使如此庞大的努力也只覆盖了真实世界交互可能性的极小一部分。

Fan 的替代方案是世界模型方法,其最突出的代表是 NVIDIA 的 Cosmos 平台和 Isaac Gym 模拟器。世界模型是一种神经网络,它学习环境状态的潜在表征,以及一个预测该状态在不同动作下如何演化的转移函数。机器人不再学习“如果我看到一个杯子,就把夹爪移动到 (x,y,z)”,而是学习“如果我对这个物体施加力向量 F,它将根据其质量和摩擦力加速”。这是一个物理因果模型。然后机器人可以利用这个模型进行规划:它可以在自己的“想象”中模拟数千种可能的动作序列,评估哪一种能导向目标状态,然后执行该计划。这与 DeepMind 的 Dreamer 和 MuZero 算法背后的原理相同,但应用于物理机器人领域。

工程挑战是巨大的。构建一个足够精确以用于真实世界操作的世界模型,需要捕捉复杂的动力学:刚体物理、软体变形、流体动力学、接触力等等。NVIDIA 的方法是使用一个“神经物理”模型,该模型在来自 Isaac Sim 的海量模拟数据上进行训练。然后,该模型通过少量真实世界数据进行微调,以修正“模拟到现实”的差距。这是一种根本不同的扩展法则:不是扩展人类演示,而是扩展模拟计算。

| 方法 | 数据来源 | 扩展瓶颈 | 对陌生场景的泛化能力 | 推理时的计算成本 |
|---|---|---|---|---|
| VLA (RT-2, PALM-E) | 遥操作演示 | 人类数据收集 | 差(在分布偏移时失败) | 低(单次前向传播) |
| 遥操作 (ALOHA, DROID) | 人类引导的轨迹 | 人类时间与成本 | 不适用(数据采集方法) | 不适用 |
| 世界模型 (Cosmos, Dreamer) | 模拟 + 少量真实数据 | 模拟保真度与计算 | 高(因果推理) | 高(需要规划展开) |
| 行为克隆 (Diffusion Policy) | 遥操作演示 | 数据多样性 | 中等(平滑轨迹) | 低 |

数据要点: 该表格揭示了清晰的权衡。VLA 和遥操作推理成本低,但存在扩展和泛化问题。世界模型承诺卓越的泛化能力,但推理时计算成本高得多,需要强大的 GPU 进行实时规划。这正是 NVIDIA 的硬件优势成为护城河的地方。

该领域一个值得注意的开源项目是 Genesis (github: Genesis-Embodied-AI/Genesis),这是一个专为机器人学习设计的通用物理引擎。它在 GitHub 上已获得超过 15,000 颗星,并提供了一个 Python 原生平台,用于生成海量模拟训练数据。另一个是 MuJoCo (github: google-deepmind/mujoco),这是机器人研究中物理模拟的事实标准,最近增加了对可微物理的支持,从而能够对控制策略进行基于梯度的优化。这些工具是世界模型范式的构建模块。

关键参与者与案例研究

机器人学习未来的争夺战正在多条战线上展开。在 Jim Fan 的领导下,NVIDIA 是世界模型方法最激进的倡导者。他们的战略是构建物理 AI 的“操作系统”:Omniverse 用于模拟,Cosmos 用于世界模型训练,Isaac 用于机器人控制,Jetson/Orin 用于边缘部署。

相关专题

world model39 篇相关文章

时间归档

May 20261239 篇已发布文章

延伸阅读

DeepSeek核心作者加盟元戎启行打造VLA大模型,研发效率飙升10倍元戎启行发布首个视觉-语言-行动(VLA)基础模型,由DeepSeek V4四位核心作者之一阮崇领衔。该模型将大语言模型推理与具身行动控制深度融合,实现研发效率10倍提升,标志着自动驾驶从模块化走向端到端统一智能的范式转变。芯片上的世界模型:500 TOPS如何改写自动驾驶规则中国自动驾驶初创公司Qcraft成为首家正式踏入物理AI领域的自动驾驶企业,它将世界模型压缩至仅需500 TOPS车载算力即可运行。这一技术突破直接挑战了行业对云端或数千TOPS硬件的依赖,有望重塑具身智能的成本与可扩展性。DexWorldModel登顶:AI竞赛从虚拟预测转向物理控制的标志性拐点世界模型基准榜单的一次更迭,揭示了人工智能领域的根本性转向。Crossdim AI的DexWorldModel并非凭借生成更逼真的视频帧夺冠,而是通过展示在指导物理机器人行动方面的卓越性能登顶。这标志着AI能力的真正试金石,正从虚拟预测决定十万小时人类行为数据集问世,开启机器人常识学习新纪元一个记录真实人类行为的超大规模开源数据集,正在从根本上改变机器人认知物理世界的方式。通过提供超过十万小时的连续人类活动录像,研究者正让机器发展出直觉性的常识,而非依赖预设规则。

常见问题

这次模型发布“Jim Fan Declares VLA and Teleoperation Dead: NVIDIA's World Model Revolution”的核心内容是什么?

In a sweeping and deliberately provocative statement, Jim Fan, the head of NVIDIA's Generalist Robot Embodied Agent (GEAR) lab, has declared that Vision-Language-Action (VLA) model…

从“Jim Fan VLA teleoperation dead explanation”看,这个模型发布为什么重要?

Jim Fan's declaration is rooted in a fundamental critique of how modern robot learning models are architected. The VLA paradigm, popularized by models like Google's RT-2 and PALM-E, treats robot control as a sequence-to-…

围绕“NVIDIA world model robot learning strategy”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。