Psi-Zero 开源人形机器人 VLA：通用机器智能，还是又一次炒作？

2026年5月6日 03:59 AINews GitHub May 2026

⭐ 2529📈 +925

来源：GitHub 归档：May 2026

Psi-Zero 是一个面向人形机器人的开源视觉-语言-动作（VLA）基础模型，声称通过融合视觉、语言与物理动作实现通用智能。然而，缺乏公开基准测试且部署门槛极高，AINews 深入调查：这究竟是真正的突破，还是又一个被过度吹捧的代码仓库？

Physical Superintelligence Lab 发布了 Psi-Zero，一个开源视觉-语言-动作（VLA）模型，旨在作为人形机器人的通用大脑。该项目上线首日便在 GitHub 上获得超过 2500 颗星，其目标是通过提供一个端到端模型来克服机器人学习领域的碎片化问题，该模型能够同时处理感知、推理和运动控制。与以往针对特定硬件或任务进行优化的模型不同，Psi-Zero 声称与硬件无关，采用基于 Transformer 的架构，联合处理视觉标记、语言指令和动作序列。此次发布包含预训练权重和一个仿真环境，但关键的是，它缺乏任何标准化基准测试或详细的部署文档。这引发了业界对其真实性能与可复现性的广泛质疑。

技术深度解析

Psi-Zero 的架构是对以往机器人学习范式局限性的直接回应。传统方法通常依赖模块化流水线：一个用于物体检测的视觉模块、一个用于指令解析的独立语言模型，以及一个用于控制的运动规划器。这引入了延迟、错误传播和脆弱性。Psi-Zero 则采用端到端的 Transformer 架构，联合处理视觉、语言和动作标记。

架构细节：
- 输入处理： 视觉输入通过预训练的 Vision Transformer (ViT) 编码，生成一系列视觉标记。语言指令使用文本编码器（可能基于 T5 或 LLaMA 的变体）进行分词。这些标记序列被拼接后输入到一个因果 Transformer 主干网络中。
- 动作解码： 模型输出一系列动作标记，代表关节角度、末端执行器位姿或力矩，具体取决于机器人本体。这与 Diffusion Policy 等模型使用的基于扩散的动作生成方式不同，转而采用自回归生成。
- 训练数据： 论文（可在 arXiv 上获取）提到使用了模拟数据（来自 MuJoCo 和 Isaac Gym）和真实遥操作数据的混合。然而，数据集的具体构成、规模和多样性并未披露。这是可复现性方面的一个重大警示信号。
- 开源组件： 代码仓库包含在自定义机器人硬件上进行微调的脚本，利用了 Hugging Face 的 Transformers 库和 PyTorch。仿真环境基于 NVIDIA Isaac Sim，提供高保真物理模拟。

与现有模型的比较：

| 模型 | 架构 | 训练数据 | 开源 | 硬件无关 | 基准测试分数 |
|---|---|---|---|---|---|
| Psi-Zero | Transformer (VLA) | 未公开的混合数据 | 是 | 声称 | 未发布任何数据 |
| RT-2 (Google DeepMind) | PaLM-E 变体 | 网络规模数据 + 机器人数据 | 否 | 否（特定于 Google 机器人） | 已知任务成功率 97%，新任务 62% |
| Octo (UC Berkeley/Stanford) | Transformer + 扩散 | Open X-Embodiment | 是 | 是（多本体） | 8 个任务平均 75% |
| π0 (Physical Intelligence) | 扩散 Transformer | 专有数据 | 否 | 否（特定于 PI 机器人） | 100+ 任务平均 85% |

数据要点： Psi-Zero 是唯一一个将开源发布与硬件无关性声明以及人形机器人聚焦结合起来的模型。然而，由于没有任何基准测试数据，无法评估它是否优于甚至更早的 Octo 模型，后者已在多个机器人平台上发布了结果。

代码仓库还引用了一个自定义的 'PsiSim' 环境，但其能力并未详细说明。缺乏排行榜或可复现的评估协议意味着研究人员无法客观地将 Psi-Zero 与替代方案进行比较。对于一个自称是“基础模型”的项目来说，这是一个关键的遗漏。

关键参与者与案例研究

Physical Superintelligence Lab (PSI) 是一个相对较新的参与者，由来自 MIT 和 Stanford 的研究人员创立。该实验室的既定使命是“为人形机器人时代构建软件大脑”。Psi-Zero 是他们的第一个重大公开发布。

竞争项目与公司：
- Google DeepMind RT-2： 最著名的 VLA 模型，但闭源且与 Google 的定制机器人车队紧密耦合。它展示了网络规模预训练的力量，但为外部研究人员提供了任何路径。
- Physical Intelligence (π0)： 一家资金充足的初创公司（已筹集 4 亿美元），拥有专有的 VLA 模型。其模型在 100 多个任务中展现出令人印象深刻的泛化能力，但代码和权重未公开。
- Stanford 的 Octo： 一个开源、多本体的模型，在 Open X-Embodiment 数据集上训练。它是与 Psi-Zero 最接近的类比，但并未针对人形机器人进行专门优化。
- Covariant（现已被 Amazon 收购）： 专注于工业机械臂，而非人形机器人。其模型是专有的。

案例研究：Octo 的成功与局限
Octo 于 2024 年初发布，是开源机器人学习的一个里程碑。它证明了单个模型可以以合理的成功率控制不同的机器人手臂（例如 Franka Panda、WidowX）。然而，由于动作空间维度更高（例如 20+ 个关节 vs. 7 个），它在人形机器人上的表现不佳。Psi-Zero 旨在填补这一空白。

人形机器人硬件格局：
| 公司 | 机器人型号 | 预估价格 | 关键特性 |
|---|---|---|---|
| Tesla | Optimus | 2 万美元（目标） | 大规模生产 |
| Figure AI | Figure 02 | 5 万美元以上 | 商业部署 |
| Boston Dynamics | Atlas | 10 万美元以上 | 先进运动能力 |
| Unitree | H1 | 9 万美元 | 低成本人形机器人 |
| 1X Technologies | NEO | 2 万美元（目标） | 家庭使用 |

数据要点： 人形机器人硬件市场是碎片化的，价格从 2 万美元到超过 10 万美元不等。一个像 Psi-Zero 这样的通用 VLA 模型，如果真能实现其声称的硬件无关性，将有可能统一这个市场。但前提是它必须首先证明自己有效。

时间归档

常见问题

GitHub 热点“Psi-Zero Open-Sources Humanoid VLA: Universal Robot Intelligence or Just Hype?”主要讲了什么？

The Physical Superintelligence Lab has released Psi-Zero, an open-source Vision-Language-Action (VLA) model designed to serve as a universal brain for humanoid robots. The project…

这个 GitHub 项目在“Psi-Zero vs RT-2 benchmark comparison”上为什么会引发关注？

Psi-Zero's architecture is a direct response to the limitations of previous robot learning paradigms. Traditional approaches often rely on modular pipelines: a vision module for object detection, a separate language mode…

从“how to fine-tune Psi-Zero on custom humanoid robot”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 2529，近一日增长约为 925，这说明它在开源社区具有较强讨论度和扩散能力。

Psi-Zero 开源人形机器人 VLA：通用机器智能，还是又一次炒作？

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题