Psi-Zero 开源人形机器人 VLA:通用机器智能,还是又一次炒作?

GitHub May 2026
⭐ 2529📈 +925
来源:GitHub归档:May 2026
Psi-Zero 是一个面向人形机器人的开源视觉-语言-动作(VLA)基础模型,声称通过融合视觉、语言与物理动作实现通用智能。然而,缺乏公开基准测试且部署门槛极高,AINews 深入调查:这究竟是真正的突破,还是又一个被过度吹捧的代码仓库?

Physical Superintelligence Lab 发布了 Psi-Zero,一个开源视觉-语言-动作(VLA)模型,旨在作为人形机器人的通用大脑。该项目上线首日便在 GitHub 上获得超过 2500 颗星,其目标是通过提供一个端到端模型来克服机器人学习领域的碎片化问题,该模型能够同时处理感知、推理和运动控制。与以往针对特定硬件或任务进行优化的模型不同,Psi-Zero 声称与硬件无关,采用基于 Transformer 的架构,联合处理视觉标记、语言指令和动作序列。此次发布包含预训练权重和一个仿真环境,但关键的是,它缺乏任何标准化基准测试或详细的部署文档。这引发了业界对其真实性能与可复现性的广泛质疑。

技术深度解析

Psi-Zero 的架构是对以往机器人学习范式局限性的直接回应。传统方法通常依赖模块化流水线:一个用于物体检测的视觉模块、一个用于指令解析的独立语言模型,以及一个用于控制的运动规划器。这引入了延迟、错误传播和脆弱性。Psi-Zero 则采用端到端的 Transformer 架构,联合处理视觉、语言和动作标记。

架构细节:
- 输入处理: 视觉输入通过预训练的 Vision Transformer (ViT) 编码,生成一系列视觉标记。语言指令使用文本编码器(可能基于 T5 或 LLaMA 的变体)进行分词。这些标记序列被拼接后输入到一个因果 Transformer 主干网络中。
- 动作解码: 模型输出一系列动作标记,代表关节角度、末端执行器位姿或力矩,具体取决于机器人本体。这与 Diffusion Policy 等模型使用的基于扩散的动作生成方式不同,转而采用自回归生成。
- 训练数据: 论文(可在 arXiv 上获取)提到使用了模拟数据(来自 MuJoCo 和 Isaac Gym)和真实遥操作数据的混合。然而,数据集的具体构成、规模和多样性并未披露。这是可复现性方面的一个重大警示信号。
- 开源组件: 代码仓库包含在自定义机器人硬件上进行微调的脚本,利用了 Hugging Face 的 Transformers 库和 PyTorch。仿真环境基于 NVIDIA Isaac Sim,提供高保真物理模拟。

与现有模型的比较:

| 模型 | 架构 | 训练数据 | 开源 | 硬件无关 | 基准测试分数 |
|---|---|---|---|---|---|
| Psi-Zero | Transformer (VLA) | 未公开的混合数据 | 是 | 声称 | 未发布任何数据 |
| RT-2 (Google DeepMind) | PaLM-E 变体 | 网络规模数据 + 机器人数据 | 否 | 否(特定于 Google 机器人) | 已知任务成功率 97%,新任务 62% |
| Octo (UC Berkeley/Stanford) | Transformer + 扩散 | Open X-Embodiment | 是 | 是(多本体) | 8 个任务平均 75% |
| π0 (Physical Intelligence) | 扩散 Transformer | 专有数据 | 否 | 否(特定于 PI 机器人) | 100+ 任务平均 85% |

数据要点: Psi-Zero 是唯一一个将开源发布与硬件无关性声明以及人形机器人聚焦结合起来的模型。然而,由于没有任何基准测试数据,无法评估它是否优于甚至更早的 Octo 模型,后者已在多个机器人平台上发布了结果。

代码仓库还引用了一个自定义的 'PsiSim' 环境,但其能力并未详细说明。缺乏排行榜或可复现的评估协议意味着研究人员无法客观地将 Psi-Zero 与替代方案进行比较。对于一个自称是“基础模型”的项目来说,这是一个关键的遗漏。

关键参与者与案例研究

Physical Superintelligence Lab (PSI) 是一个相对较新的参与者,由来自 MIT 和 Stanford 的研究人员创立。该实验室的既定使命是“为人形机器人时代构建软件大脑”。Psi-Zero 是他们的第一个重大公开发布。

竞争项目与公司:
- Google DeepMind RT-2: 最著名的 VLA 模型,但闭源且与 Google 的定制机器人车队紧密耦合。它展示了网络规模预训练的力量,但为外部研究人员提供了任何路径。
- Physical Intelligence (π0): 一家资金充足的初创公司(已筹集 4 亿美元),拥有专有的 VLA 模型。其模型在 100 多个任务中展现出令人印象深刻的泛化能力,但代码和权重未公开。
- Stanford 的 Octo: 一个开源、多本体的模型,在 Open X-Embodiment 数据集上训练。它是与 Psi-Zero 最接近的类比,但并未针对人形机器人进行专门优化。
- Covariant(现已被 Amazon 收购): 专注于工业机械臂,而非人形机器人。其模型是专有的。

案例研究:Octo 的成功与局限
Octo 于 2024 年初发布,是开源机器人学习的一个里程碑。它证明了单个模型可以以合理的成功率控制不同的机器人手臂(例如 Franka Panda、WidowX)。然而,由于动作空间维度更高(例如 20+ 个关节 vs. 7 个),它在人形机器人上的表现不佳。Psi-Zero 旨在填补这一空白。

人形机器人硬件格局:
| 公司 | 机器人型号 | 预估价格 | 关键特性 |
|---|---|---|---|
| Tesla | Optimus | 2 万美元(目标) | 大规模生产 |
| Figure AI | Figure 02 | 5 万美元以上 | 商业部署 |
| Boston Dynamics | Atlas | 10 万美元以上 | 先进运动能力 |
| Unitree | H1 | 9 万美元 | 低成本人形机器人 |
| 1X Technologies | NEO | 2 万美元(目标) | 家庭使用 |

数据要点: 人形机器人硬件市场是碎片化的,价格从 2 万美元到超过 10 万美元不等。一个像 Psi-Zero 这样的通用 VLA 模型,如果真能实现其声称的硬件无关性,将有可能统一这个市场。但前提是它必须首先证明自己有效。

更多来自 GitHub

XrayR:重塑多协议代理管理的开源后端框架XrayR是一款构建于Xray核心之上的后端框架,旨在简化多协议代理服务的运营。它支持V2Ray、Trojan和Shadowsocks协议,并能与SSpanel、V2Board等多个面板集成。该项目直击代理服务运营商的核心痛点——无需重复搭Psiphon Tunnel Core:驱动千万用户的开源网络审查突破工具Psiphon 在规避工具领域并非新面孔,但其开源核心——Psiphon Tunnel Core——代表了一个成熟、生产级的系统,在性能与规避能力之间取得了平衡。与简单的 VPN 或 Tor 网络不同,Psiphon 采用动态、多协议的方法acme.sh:零依赖的Shell脚本,默默支撑着半个互联网的SSLacme.sh是一个纯Unix Shell脚本(符合POSIX标准),实现了ACME协议,用于自动化SSL/TLS证书的签发与续期。该项目由Neil Pang于2015年创建,至今已获得超过46,000个GitHub星标,广泛应用于从个人博查看来源专题页GitHub 已收录 1599 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

StanfordQuadruped:一台500美元的开源机器人如何让四足机器人研究走向大众斯坦福机器人俱乐部的StanfordQuadruped项目,正悄然掀起一场机器人普及革命。通过整合3D打印部件、廉价舵机与树莓派控制器,这个开源平台以低于500美元的成本打造出功能完整的四足机器人,极大降低了腿式机器人研究的资金与技术门槛。开源动力机器人计划发布执行器硬件,或将颠覆高端机器人研发格局开源动力机器人计划近日发布了高性能机器人执行器的全套开源硬件设计。这一举措提供了一个经过验证的模块化构建单元,有望从研究实验室到商业原型阶段,显著加速动态机器人领域的发展进程。MoveIt Resources:驱动机器人运动规划发展的无名基准力量在机器人软件开发的复杂生态中,标准化测试环境与算法本身同等重要。MoveIt Resources 为广泛使用的 MoveIt 运动规划框架提供了至关重要的标准化机器人模型与配置,支撑着可靠的测试与基准评估。这个代码库代表着一项基础性基础设施MoveIt 2:驱动下一代机器人自主性的关键基础设施MoveIt 2 标志着机器人软件的根本性转变,它从一个流行的研究工具演变为面向自主操控的生产就绪框架。通过全面拥抱 ROS 2 的实时性与安全范式,它正成为从工厂车间到复杂服务机器人的复杂机器人控制事实标准,预示着开源机器人基础设施的成熟

常见问题

GitHub 热点“Psi-Zero Open-Sources Humanoid VLA: Universal Robot Intelligence or Just Hype?”主要讲了什么?

The Physical Superintelligence Lab has released Psi-Zero, an open-source Vision-Language-Action (VLA) model designed to serve as a universal brain for humanoid robots. The project…

这个 GitHub 项目在“Psi-Zero vs RT-2 benchmark comparison”上为什么会引发关注?

Psi-Zero's architecture is a direct response to the limitations of previous robot learning paradigms. Traditional approaches often rely on modular pipelines: a vision module for object detection, a separate language mode…

从“how to fine-tune Psi-Zero on custom humanoid robot”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2529,近一日增长约为 925,这说明它在开源社区具有较强讨论度和扩散能力。