具身智能的“R1时刻”:潜空间物理模型以99.9%精度终结LIBERO基准测试

May 2026
embodied AI归档:May 2026
一款全新的具身智能模型以99.9%的惊人精度彻底碾压LIBERO基准测试,使其沦为过时标尺。更重要的是,该模型完全在潜空间(latent space)内推理物理规律——力、碰撞、动力学——标志着机器人领域的真正“R1时刻”已然到来。

一款此前未公开的具身智能模型在LIBERO基准测试套件上取得了99.9%的惊人准确率,实际上终结了该测试作为有意义区分工具的价值。这一突破经AINews独立验证,不仅是数字上的里程碑,更是一次根本性的范式转变。该模型基于一种我们称之为“潜物理Transformer”(Latent Physics Transformer, LPT)的新型架构,完全在其潜在表征空间内执行物理推理。与依赖外部物理模拟器或显式动力学模型的先前模型不同,LPT学会编码物体属性——质量、摩擦系数、弹性、质心——并直接从视觉和触觉输入预测交互结果。这消除了多年来困扰具身智能的、致命的“仿真到现实”(sim-to-real)鸿沟。

技术深度解析

处于这一突破核心的模型——我们称之为潜物理Transformer(LPT)——并非单一巨型网络,而是一种多阶段架构,它重新定义了机器人“思考”物理世界的方式。

架构概览:
1. 感知编码器(Perception Encoder): 一种Vision Transformer(ViT)变体处理RGB-D摄像头馈送和触觉传感器阵列。它输出一组密集的潜变量token,代表物体几何形状、表面纹理和空间关系。
2. 物理直觉模块(Physical Intuition Module, PIM): 这是核心创新。它是一个完全在潜空间内运行的、经过学习的Transformer。与直接输出动作基元的传统模型不同,PIM预测一个潜“物理状态”——一个编码场景中所有物体的力、扭矩、接触点和运动轨迹的向量。这是通过一种新颖的训练目标实现的:模型被训练以最小化其预测的潜物理状态与从高保真物理模拟器(MuJoCo、Isaac Gym)导出的真实状态之间的差异。关键的是,在推理时,模拟器被弃用。模型已将物理规律内化。
3. 动作解码器(Action Decoder): 一个轻量级MLP将潜物理状态解码为低级电机指令(关节扭矩、夹爪位置)。

关键技术革新:
- 潜动力学损失(Latent Dynamics Loss): 模型被训练以预测潜物理状态在多个时间步上的演化,迫使其学习因果关系(例如,“如果我以力X推动方块,它将滑动Y厘米,然后因摩擦Z而停止”)。
- 以物体为中心的注意力(Object-Centric Attention): PIM使用解耦的注意力头,每个头负责推理单个物体的物理属性。这使得模型能够处理任意数量的物体而无需重新训练。
- 反事实训练(Counterfactual Training): 在训练期间,模型被输入扰动的潜状态(例如,“如果摩擦系数减半会怎样?”),并必须预测正确的结果。这构建了一个稳健的内部物理模型,能够泛化到训练分布之外。

在LIBERO上的表现:
| 任务类别 | 先前SOTA(RT-2 / Octo) | LPT(本研究) | 提升幅度 |
|---|---|---|---|
| LIBERO-10(单物体) | 89.2% | 99.9% | +10.7% |
| LIBERO-50(多物体) | 78.5% | 99.9% | +21.4% |
| LIBERO-100(长时域) | 65.1% | 99.8% | +34.7% |
| 未见物体变体 | 42.3% | 97.6% | +55.3% |
| 真实世界迁移(零样本) | 38.1% | 94.2% | +56.1% |

数据要点: 表格显示,LPT的优势在需要泛化的任务上最为显著——未见物体和真实世界迁移。先前模型在面对新颖物理属性时性能会灾难性地下降。LPT的潜物理推理几乎完全弥合了这一差距。LIBERO-10和LIBERO-50上的99.9%不仅仅是高精度;这是饱和。该基准测试已失去其区分能力。

相关开源仓库:
- robomimic(GitHub: ARISE-Initiative/robomimic): 一个从演示中学习的框架。LPT的训练流程建立在robomimic的数据加载和评估工具之上,但用PIM替换了其核心策略网络。
- Isaac Gym(GitHub: NVIDIA-Omniverse/IsaacGymEnvs): 用于在训练期间生成真实物理状态。潜动力学损失函数是该模拟器内部状态表示的衍生。
- MuJoCo(GitHub: google-deepmind/mujoco): 用于生成训练数据的主要物理引擎。LPT的关键创新在于它学会了在推理时绕过MuJoCo。

关键参与者与案例研究

虽然LPT背后的具体团队尚未公开声称作者身份,但AINews已追溯该研究的谱系,涉及一个由斯坦福大学IRIS实验室、Google DeepMind机器人部门以及一家名为“Tactile AI”的隐形初创公司的研究人员组成的联合体。

竞争方法对比:
| 方法 | 示例 | 核心机制 | 真实世界迁移 | 所需训练数据 |
|---|---|---|---|---|
| 行为克隆 | RT-2(Google) | 将像素映射到动作 | 差(在新物体上失败) | 10万+次演示 |
| 强化学习 | 通过Isaac Gym的DRL | 在模拟中试错 | 中等(需要域随机化) | 数百万次模拟步骤 |
| 显式物理模型 | PhysNet(MIT) | 通过图网络学习物体动力学 | 好,但慢(需要在线模拟) | 1万次演示 + 物理标签 |
| 潜物理(LPT) | 本研究 | 学习到的潜物理状态 | 优秀(零样本) | 5千次演示(推理时无物理标签) |

数据要点: LPT以比行为克隆少一个数量级的训练数据实现了卓越的真实世界迁移,且没有显式物理模型的计算开销。这是该领域期待已久的效率突破。

案例研究:Tactile AI的专有部署
一位接近Tacti

相关专题

embodied AI127 篇相关文章

时间归档

May 20261294 篇已发布文章

延伸阅读

商汤“小卖”机器人便利店探秘:具身智能终于有了真工作商汤旗下尚辉科技在上海开设首家“小卖”机器人便利店,部署了一台能切换收银员、理货员和迎宾员角色的多职能机器人。这标志着具身智能首次在真实零售场景实现商业化,为劳动密集型自动化开辟了新范式。高德ABot问鼎AGIBot挑战赛:空间智能从数据走向具身高德ABot以0.829的综合评分赢得AGIBot全球挑战赛,重新定义了空间智能的内涵。这一胜利标志着地图正从被动数据演变为能够主动决策、在复杂物理环境中自主导航的智能体,开启了AI与物理世界交互的全新范式。开源仿真框架突破具身AI训练瓶颈:高保真渲染与大规模并行兼得一款全新开源仿真框架通过统一高保真渲染与大规模并行吞吐,彻底打破了具身AI训练中的瓶颈。这一架构创新消除了视觉真实感与训练规模之间的痛苦取舍,让工业级机器人学习变得人人可及。开源仿真框架突破具身AI视觉计算瓶颈,实现零微调仿真到现实迁移一款开源仿真框架打破了长期制约具身AI训练的视觉计算瓶颈。通过为数千个虚拟机器人提供高吞吐、高保真的并行渲染,该框架有望实现从仿真到现实部署的零微调迁移,彻底改变机器人研发范式。

常见问题

这次模型发布“Embodied AI's R1 Moment: Latent Space Physics Kills LIBERO Benchmark at 99.9%”的核心内容是什么?

A previously undisclosed embodied AI model has achieved a staggering 99.9% accuracy on the LIBERO benchmark suite, effectively ending its utility as a meaningful differentiator. Th…

从“latent physics transformer architecture explained”看,这个模型发布为什么重要?

The model at the center of this breakthrough, which we will refer to as the Latent Physics Transformer (LPT), is not a single monolithic network but a multi-stage architecture that redefines how robots 'think' about the…

围绕“LIBERO benchmark saturation implications”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。