技术深度解析
Psi-Zero 的架构是对以往机器人学习范式局限性的直接回应。传统方法通常依赖模块化流水线:一个用于物体检测的视觉模块、一个用于指令解析的独立语言模型,以及一个用于控制的运动规划器。这引入了延迟、错误传播和脆弱性。Psi-Zero 则采用端到端的 Transformer 架构,联合处理视觉、语言和动作标记。
架构细节:
- 输入处理: 视觉输入通过预训练的 Vision Transformer (ViT) 编码,生成一系列视觉标记。语言指令使用文本编码器(可能基于 T5 或 LLaMA 的变体)进行分词。这些标记序列被拼接后输入到一个因果 Transformer 主干网络中。
- 动作解码: 模型输出一系列动作标记,代表关节角度、末端执行器位姿或力矩,具体取决于机器人本体。这与 Diffusion Policy 等模型使用的基于扩散的动作生成方式不同,转而采用自回归生成。
- 训练数据: 论文(可在 arXiv 上获取)提到使用了模拟数据(来自 MuJoCo 和 Isaac Gym)和真实遥操作数据的混合。然而,数据集的具体构成、规模和多样性并未披露。这是可复现性方面的一个重大警示信号。
- 开源组件: 代码仓库包含在自定义机器人硬件上进行微调的脚本,利用了 Hugging Face 的 Transformers 库和 PyTorch。仿真环境基于 NVIDIA Isaac Sim,提供高保真物理模拟。
与现有模型的比较:
| 模型 | 架构 | 训练数据 | 开源 | 硬件无关 | 基准测试分数 |
|---|---|---|---|---|---|
| Psi-Zero | Transformer (VLA) | 未公开的混合数据 | 是 | 声称 | 未发布任何数据 |
| RT-2 (Google DeepMind) | PaLM-E 变体 | 网络规模数据 + 机器人数据 | 否 | 否(特定于 Google 机器人) | 已知任务成功率 97%,新任务 62% |
| Octo (UC Berkeley/Stanford) | Transformer + 扩散 | Open X-Embodiment | 是 | 是(多本体) | 8 个任务平均 75% |
| π0 (Physical Intelligence) | 扩散 Transformer | 专有数据 | 否 | 否(特定于 PI 机器人) | 100+ 任务平均 85% |
数据要点: Psi-Zero 是唯一一个将开源发布与硬件无关性声明以及人形机器人聚焦结合起来的模型。然而,由于没有任何基准测试数据,无法评估它是否优于甚至更早的 Octo 模型,后者已在多个机器人平台上发布了结果。
代码仓库还引用了一个自定义的 'PsiSim' 环境,但其能力并未详细说明。缺乏排行榜或可复现的评估协议意味着研究人员无法客观地将 Psi-Zero 与替代方案进行比较。对于一个自称是“基础模型”的项目来说,这是一个关键的遗漏。
关键参与者与案例研究
Physical Superintelligence Lab (PSI) 是一个相对较新的参与者,由来自 MIT 和 Stanford 的研究人员创立。该实验室的既定使命是“为人形机器人时代构建软件大脑”。Psi-Zero 是他们的第一个重大公开发布。
竞争项目与公司:
- Google DeepMind RT-2: 最著名的 VLA 模型,但闭源且与 Google 的定制机器人车队紧密耦合。它展示了网络规模预训练的力量,但为外部研究人员提供了任何路径。
- Physical Intelligence (π0): 一家资金充足的初创公司(已筹集 4 亿美元),拥有专有的 VLA 模型。其模型在 100 多个任务中展现出令人印象深刻的泛化能力,但代码和权重未公开。
- Stanford 的 Octo: 一个开源、多本体的模型,在 Open X-Embodiment 数据集上训练。它是与 Psi-Zero 最接近的类比,但并未针对人形机器人进行专门优化。
- Covariant(现已被 Amazon 收购): 专注于工业机械臂,而非人形机器人。其模型是专有的。
案例研究:Octo 的成功与局限
Octo 于 2024 年初发布,是开源机器人学习的一个里程碑。它证明了单个模型可以以合理的成功率控制不同的机器人手臂(例如 Franka Panda、WidowX)。然而,由于动作空间维度更高(例如 20+ 个关节 vs. 7 个),它在人形机器人上的表现不佳。Psi-Zero 旨在填补这一空白。
人形机器人硬件格局:
| 公司 | 机器人型号 | 预估价格 | 关键特性 |
|---|---|---|---|
| Tesla | Optimus | 2 万美元(目标) | 大规模生产 |
| Figure AI | Figure 02 | 5 万美元以上 | 商业部署 |
| Boston Dynamics | Atlas | 10 万美元以上 | 先进运动能力 |
| Unitree | H1 | 9 万美元 | 低成本人形机器人 |
| 1X Technologies | NEO | 2 万美元(目标) | 家庭使用 |
数据要点: 人形机器人硬件市场是碎片化的,价格从 2 万美元到超过 10 万美元不等。一个像 Psi-Zero 这样的通用 VLA 模型,如果真能实现其声称的硬件无关性,将有可能统一这个市场。但前提是它必须首先证明自己有效。