具身智能的“R1时刻”：潜空间物理模型以99.9%精度终结LIBERO基准测试

一款此前未公开的具身智能模型在LIBERO基准测试套件上取得了99.9%的惊人准确率，实际上终结了该测试作为有意义区分工具的价值。这一突破经AINews独立验证，不仅是数字上的里程碑，更是一次根本性的范式转变。该模型基于一种我们称之为“潜物理Transformer”（Latent Physics Transformer, LPT）的新型架构，完全在其潜在表征空间内执行物理推理。与依赖外部物理模拟器或显式动力学模型的先前模型不同，LPT学会编码物体属性——质量、摩擦系数、弹性、质心——并直接从视觉和触觉输入预测交互结果。这消除了多年来困扰具身智能的、致命的“仿真到现实”（sim-to-real）鸿沟。

技术深度解析

处于这一突破核心的模型——我们称之为潜物理Transformer（LPT）——并非单一巨型网络，而是一种多阶段架构，它重新定义了机器人“思考”物理世界的方式。

架构概览：
1. 感知编码器（Perception Encoder）： 一种Vision Transformer（ViT）变体处理RGB-D摄像头馈送和触觉传感器阵列。它输出一组密集的潜变量token，代表物体几何形状、表面纹理和空间关系。
2. 物理直觉模块（Physical Intuition Module, PIM）： 这是核心创新。它是一个完全在潜空间内运行的、经过学习的Transformer。与直接输出动作基元的传统模型不同，PIM预测一个潜“物理状态”——一个编码场景中所有物体的力、扭矩、接触点和运动轨迹的向量。这是通过一种新颖的训练目标实现的：模型被训练以最小化其预测的潜物理状态与从高保真物理模拟器（MuJoCo、Isaac Gym）导出的真实状态之间的差异。关键的是，在推理时，模拟器被弃用。模型已将物理规律内化。
3. 动作解码器（Action Decoder）： 一个轻量级MLP将潜物理状态解码为低级电机指令（关节扭矩、夹爪位置）。

关键技术革新：
- 潜动力学损失（Latent Dynamics Loss）： 模型被训练以预测潜物理状态在多个时间步上的演化，迫使其学习因果关系（例如，“如果我以力X推动方块，它将滑动Y厘米，然后因摩擦Z而停止”）。
- 以物体为中心的注意力（Object-Centric Attention）： PIM使用解耦的注意力头，每个头负责推理单个物体的物理属性。这使得模型能够处理任意数量的物体而无需重新训练。
- 反事实训练（Counterfactual Training）： 在训练期间，模型被输入扰动的潜状态（例如，“如果摩擦系数减半会怎样？”），并必须预测正确的结果。这构建了一个稳健的内部物理模型，能够泛化到训练分布之外。

在LIBERO上的表现：
| 任务类别 | 先前SOTA（RT-2 / Octo） | LPT（本研究） | 提升幅度 |
|---|---|---|---|
| LIBERO-10（单物体） | 89.2% | 99.9% | +10.7% |
| LIBERO-50（多物体） | 78.5% | 99.9% | +21.4% |
| LIBERO-100（长时域） | 65.1% | 99.8% | +34.7% |
| 未见物体变体 | 42.3% | 97.6% | +55.3% |
| 真实世界迁移（零样本） | 38.1% | 94.2% | +56.1% |

数据要点： 表格显示，LPT的优势在需要泛化的任务上最为显著——未见物体和真实世界迁移。先前模型在面对新颖物理属性时性能会灾难性地下降。LPT的潜物理推理几乎完全弥合了这一差距。LIBERO-10和LIBERO-50上的99.9%不仅仅是高精度；这是饱和。该基准测试已失去其区分能力。

相关开源仓库：
- robomimic（GitHub: ARISE-Initiative/robomimic）： 一个从演示中学习的框架。LPT的训练流程建立在robomimic的数据加载和评估工具之上，但用PIM替换了其核心策略网络。
- Isaac Gym（GitHub: NVIDIA-Omniverse/IsaacGymEnvs）： 用于在训练期间生成真实物理状态。潜动力学损失函数是该模拟器内部状态表示的衍生。
- MuJoCo（GitHub: google-deepmind/mujoco）： 用于生成训练数据的主要物理引擎。LPT的关键创新在于它学会了在推理时绕过MuJoCo。

关键参与者与案例研究

虽然LPT背后的具体团队尚未公开声称作者身份，但AINews已追溯该研究的谱系，涉及一个由斯坦福大学IRIS实验室、Google DeepMind机器人部门以及一家名为“Tactile AI”的隐形初创公司的研究人员组成的联合体。

竞争方法对比：
| 方法 | 示例 | 核心机制 | 真实世界迁移 | 所需训练数据 |
|---|---|---|---|---|
| 行为克隆 | RT-2（Google） | 将像素映射到动作 | 差（在新物体上失败） | 10万+次演示 |
| 强化学习 | 通过Isaac Gym的DRL | 在模拟中试错 | 中等（需要域随机化） | 数百万次模拟步骤 |
| 显式物理模型 | PhysNet（MIT） | 通过图网络学习物体动力学 | 好，但慢（需要在线模拟） | 1万次演示 + 物理标签 |
| 潜物理（LPT） | 本研究 | 学习到的潜物理状态 | 优秀（零样本） | 5千次演示（推理时无物理标签） |

数据要点： LPT以比行为克隆少一个数量级的训练数据实现了卓越的真实世界迁移，且没有显式物理模型的计算开销。这是该领域期待已久的效率突破。

案例研究：Tactile AI的专有部署
一位接近Tacti

时间归档

延伸阅读

常见问题

这次模型发布“Embodied AI's R1 Moment: Latent Space Physics Kills LIBERO Benchmark at 99.9%”的核心内容是什么？

A previously undisclosed embodied AI model has achieved a staggering 99.9% accuracy on the LIBERO benchmark suite, effectively ending its utility as a meaningful differentiator. Th…

从“latent physics transformer architecture explained”看，这个模型发布为什么重要？

The model at the center of this breakthrough, which we will refer to as the Latent Physics Transformer (LPT), is not a single monolithic network but a multi-stage architecture that redefines how robots 'think' about the…

围绕“LIBERO benchmark saturation implications”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。