技术深度解析
处于这一突破核心的模型——我们称之为潜物理Transformer(LPT)——并非单一巨型网络,而是一种多阶段架构,它重新定义了机器人“思考”物理世界的方式。
架构概览:
1. 感知编码器(Perception Encoder): 一种Vision Transformer(ViT)变体处理RGB-D摄像头馈送和触觉传感器阵列。它输出一组密集的潜变量token,代表物体几何形状、表面纹理和空间关系。
2. 物理直觉模块(Physical Intuition Module, PIM): 这是核心创新。它是一个完全在潜空间内运行的、经过学习的Transformer。与直接输出动作基元的传统模型不同,PIM预测一个潜“物理状态”——一个编码场景中所有物体的力、扭矩、接触点和运动轨迹的向量。这是通过一种新颖的训练目标实现的:模型被训练以最小化其预测的潜物理状态与从高保真物理模拟器(MuJoCo、Isaac Gym)导出的真实状态之间的差异。关键的是,在推理时,模拟器被弃用。模型已将物理规律内化。
3. 动作解码器(Action Decoder): 一个轻量级MLP将潜物理状态解码为低级电机指令(关节扭矩、夹爪位置)。
关键技术革新:
- 潜动力学损失(Latent Dynamics Loss): 模型被训练以预测潜物理状态在多个时间步上的演化,迫使其学习因果关系(例如,“如果我以力X推动方块,它将滑动Y厘米,然后因摩擦Z而停止”)。
- 以物体为中心的注意力(Object-Centric Attention): PIM使用解耦的注意力头,每个头负责推理单个物体的物理属性。这使得模型能够处理任意数量的物体而无需重新训练。
- 反事实训练(Counterfactual Training): 在训练期间,模型被输入扰动的潜状态(例如,“如果摩擦系数减半会怎样?”),并必须预测正确的结果。这构建了一个稳健的内部物理模型,能够泛化到训练分布之外。
在LIBERO上的表现:
| 任务类别 | 先前SOTA(RT-2 / Octo) | LPT(本研究) | 提升幅度 |
|---|---|---|---|
| LIBERO-10(单物体) | 89.2% | 99.9% | +10.7% |
| LIBERO-50(多物体) | 78.5% | 99.9% | +21.4% |
| LIBERO-100(长时域) | 65.1% | 99.8% | +34.7% |
| 未见物体变体 | 42.3% | 97.6% | +55.3% |
| 真实世界迁移(零样本) | 38.1% | 94.2% | +56.1% |
数据要点: 表格显示,LPT的优势在需要泛化的任务上最为显著——未见物体和真实世界迁移。先前模型在面对新颖物理属性时性能会灾难性地下降。LPT的潜物理推理几乎完全弥合了这一差距。LIBERO-10和LIBERO-50上的99.9%不仅仅是高精度;这是饱和。该基准测试已失去其区分能力。
相关开源仓库:
- robomimic(GitHub: ARISE-Initiative/robomimic): 一个从演示中学习的框架。LPT的训练流程建立在robomimic的数据加载和评估工具之上,但用PIM替换了其核心策略网络。
- Isaac Gym(GitHub: NVIDIA-Omniverse/IsaacGymEnvs): 用于在训练期间生成真实物理状态。潜动力学损失函数是该模拟器内部状态表示的衍生。
- MuJoCo(GitHub: google-deepmind/mujoco): 用于生成训练数据的主要物理引擎。LPT的关键创新在于它学会了在推理时绕过MuJoCo。
关键参与者与案例研究
虽然LPT背后的具体团队尚未公开声称作者身份,但AINews已追溯该研究的谱系,涉及一个由斯坦福大学IRIS实验室、Google DeepMind机器人部门以及一家名为“Tactile AI”的隐形初创公司的研究人员组成的联合体。
竞争方法对比:
| 方法 | 示例 | 核心机制 | 真实世界迁移 | 所需训练数据 |
|---|---|---|---|---|
| 行为克隆 | RT-2(Google) | 将像素映射到动作 | 差(在新物体上失败) | 10万+次演示 |
| 强化学习 | 通过Isaac Gym的DRL | 在模拟中试错 | 中等(需要域随机化) | 数百万次模拟步骤 |
| 显式物理模型 | PhysNet(MIT) | 通过图网络学习物体动力学 | 好,但慢(需要在线模拟) | 1万次演示 + 物理标签 |
| 潜物理(LPT) | 本研究 | 学习到的潜物理状态 | 优秀(零样本) | 5千次演示(推理时无物理标签) |
数据要点: LPT以比行为克隆少一个数量级的训练数据实现了卓越的真实世界迁移,且没有显式物理模型的计算开销。这是该领域期待已久的效率突破。
案例研究:Tactile AI的专有部署
一位接近Tacti