Psi-Zero 开源人形机器人 VLA:通用机器智能,还是又一次炒作?

GitHub May 2026
⭐ 2529📈 +925
来源:GitHub归档:May 2026
Psi-Zero 是一个面向人形机器人的开源视觉-语言-动作(VLA)基础模型,声称通过融合视觉、语言与物理动作实现通用智能。然而,缺乏公开基准测试且部署门槛极高,AINews 深入调查:这究竟是真正的突破,还是又一个被过度吹捧的代码仓库?

Physical Superintelligence Lab 发布了 Psi-Zero,一个开源视觉-语言-动作(VLA)模型,旨在作为人形机器人的通用大脑。该项目上线首日便在 GitHub 上获得超过 2500 颗星,其目标是通过提供一个端到端模型来克服机器人学习领域的碎片化问题,该模型能够同时处理感知、推理和运动控制。与以往针对特定硬件或任务进行优化的模型不同,Psi-Zero 声称与硬件无关,采用基于 Transformer 的架构,联合处理视觉标记、语言指令和动作序列。此次发布包含预训练权重和一个仿真环境,但关键的是,它缺乏任何标准化基准测试或详细的部署文档。这引发了业界对其真实性能与可复现性的广泛质疑。

技术深度解析

Psi-Zero 的架构是对以往机器人学习范式局限性的直接回应。传统方法通常依赖模块化流水线:一个用于物体检测的视觉模块、一个用于指令解析的独立语言模型,以及一个用于控制的运动规划器。这引入了延迟、错误传播和脆弱性。Psi-Zero 则采用端到端的 Transformer 架构,联合处理视觉、语言和动作标记。

架构细节:
- 输入处理: 视觉输入通过预训练的 Vision Transformer (ViT) 编码,生成一系列视觉标记。语言指令使用文本编码器(可能基于 T5 或 LLaMA 的变体)进行分词。这些标记序列被拼接后输入到一个因果 Transformer 主干网络中。
- 动作解码: 模型输出一系列动作标记,代表关节角度、末端执行器位姿或力矩,具体取决于机器人本体。这与 Diffusion Policy 等模型使用的基于扩散的动作生成方式不同,转而采用自回归生成。
- 训练数据: 论文(可在 arXiv 上获取)提到使用了模拟数据(来自 MuJoCo 和 Isaac Gym)和真实遥操作数据的混合。然而,数据集的具体构成、规模和多样性并未披露。这是可复现性方面的一个重大警示信号。
- 开源组件: 代码仓库包含在自定义机器人硬件上进行微调的脚本,利用了 Hugging Face 的 Transformers 库和 PyTorch。仿真环境基于 NVIDIA Isaac Sim,提供高保真物理模拟。

与现有模型的比较:

| 模型 | 架构 | 训练数据 | 开源 | 硬件无关 | 基准测试分数 |
|---|---|---|---|---|---|
| Psi-Zero | Transformer (VLA) | 未公开的混合数据 | 是 | 声称 | 未发布任何数据 |
| RT-2 (Google DeepMind) | PaLM-E 变体 | 网络规模数据 + 机器人数据 | 否 | 否(特定于 Google 机器人) | 已知任务成功率 97%,新任务 62% |
| Octo (UC Berkeley/Stanford) | Transformer + 扩散 | Open X-Embodiment | 是 | 是(多本体) | 8 个任务平均 75% |
| π0 (Physical Intelligence) | 扩散 Transformer | 专有数据 | 否 | 否(特定于 PI 机器人) | 100+ 任务平均 85% |

数据要点: Psi-Zero 是唯一一个将开源发布与硬件无关性声明以及人形机器人聚焦结合起来的模型。然而,由于没有任何基准测试数据,无法评估它是否优于甚至更早的 Octo 模型,后者已在多个机器人平台上发布了结果。

代码仓库还引用了一个自定义的 'PsiSim' 环境,但其能力并未详细说明。缺乏排行榜或可复现的评估协议意味着研究人员无法客观地将 Psi-Zero 与替代方案进行比较。对于一个自称是“基础模型”的项目来说,这是一个关键的遗漏。

关键参与者与案例研究

Physical Superintelligence Lab (PSI) 是一个相对较新的参与者,由来自 MIT 和 Stanford 的研究人员创立。该实验室的既定使命是“为人形机器人时代构建软件大脑”。Psi-Zero 是他们的第一个重大公开发布。

竞争项目与公司:
- Google DeepMind RT-2: 最著名的 VLA 模型,但闭源且与 Google 的定制机器人车队紧密耦合。它展示了网络规模预训练的力量,但为外部研究人员提供了任何路径。
- Physical Intelligence (π0): 一家资金充足的初创公司(已筹集 4 亿美元),拥有专有的 VLA 模型。其模型在 100 多个任务中展现出令人印象深刻的泛化能力,但代码和权重未公开。
- Stanford 的 Octo: 一个开源、多本体的模型,在 Open X-Embodiment 数据集上训练。它是与 Psi-Zero 最接近的类比,但并未针对人形机器人进行专门优化。
- Covariant(现已被 Amazon 收购): 专注于工业机械臂,而非人形机器人。其模型是专有的。

案例研究:Octo 的成功与局限
Octo 于 2024 年初发布,是开源机器人学习的一个里程碑。它证明了单个模型可以以合理的成功率控制不同的机器人手臂(例如 Franka Panda、WidowX)。然而,由于动作空间维度更高(例如 20+ 个关节 vs. 7 个),它在人形机器人上的表现不佳。Psi-Zero 旨在填补这一空白。

人形机器人硬件格局:
| 公司 | 机器人型号 | 预估价格 | 关键特性 |
|---|---|---|---|
| Tesla | Optimus | 2 万美元(目标) | 大规模生产 |
| Figure AI | Figure 02 | 5 万美元以上 | 商业部署 |
| Boston Dynamics | Atlas | 10 万美元以上 | 先进运动能力 |
| Unitree | H1 | 9 万美元 | 低成本人形机器人 |
| 1X Technologies | NEO | 2 万美元(目标) | 家庭使用 |

数据要点: 人形机器人硬件市场是碎片化的,价格从 2 万美元到超过 10 万美元不等。一个像 Psi-Zero 这样的通用 VLA 模型,如果真能实现其声称的硬件无关性,将有可能统一这个市场。但前提是它必须首先证明自己有效。

更多来自 GitHub

OpenPilot获大众MQB平台“救生索”:J533线束项目深度解析hardybm/comma-j533-harness代码库代表了一项聚焦于社区的、旨在解决特定硬件兼容性问题的努力:将comma.ai的openpilot系统连接到基于大众MQB平台打造的车辆上。MQB平台广泛应用于高尔夫、帕萨特和途观等车超越模仿:开源强化学习如何解锁PM01人形机器人开源机器人社区迎来新焦点:'Beyond Minic'仓库(chasefirefly03/enginai_pm01_beyondminic)将宇树科技的强化学习框架Unitree RL Lab移植至众擎PM01人形机器人。该项目直击一个显著Pear Desktop:悄然引爆GitHub的开源音乐播放器扩展,一夜狂揽3.2万星Pear Desktop是托管在GitHub上pear-devs组织下的一个开源项目,近期经历爆发式增长,星标数达到31,949颗,日增+323。该项目自我定位为音乐播放器的扩展——一个插件框架,通过高级歌词显示、音频效果和UI主题等功能增查看来源专题页GitHub 已收录 2880 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

MIT猎豹开源内幕:让机器人冲刺与跳跃的核心代码麻省理工学院仿生机器人实验室将其传奇猎豹机器人的核心控制软件开源。这套基于模型预测控制与实时状态估计的技术栈,为研究人员提供了生产级动态四足运动工具包,并已开始重塑整个领域。Navigation2:悄然驱动自主机器人革命的开源“大脑”作为ROS 2官方导航框架,Navigation2(Nav2)以模块化、行为树驱动的架构取代了老旧的ROS 1导航栈。从亚马逊仓库到大学实验室,它已部署在全球数千台机器人中,其最新更新更让多机器人协同与动态地图更新达到生产级成熟度。SimplerEnv-OpenVLA:降低视觉-语言-动作机器人控制门槛的开源利器一款名为SimplerEnv-OpenVLA的全新开源分支,旨在通过将强大的OpenVLA模型封装进精简的仿真环境,推动机器人学习的民主化进程。该项目有望大幅降低研究人员测试和基准测试视觉-语言-动作策略的门槛,但其对特定平台的依赖也引发了StanfordQuadruped:一台500美元的开源机器人如何让四足机器人研究走向大众斯坦福机器人俱乐部的StanfordQuadruped项目,正悄然掀起一场机器人普及革命。通过整合3D打印部件、廉价舵机与树莓派控制器,这个开源平台以低于500美元的成本打造出功能完整的四足机器人,极大降低了腿式机器人研究的资金与技术门槛。

常见问题

GitHub 热点“Psi-Zero Open-Sources Humanoid VLA: Universal Robot Intelligence or Just Hype?”主要讲了什么?

The Physical Superintelligence Lab has released Psi-Zero, an open-source Vision-Language-Action (VLA) model designed to serve as a universal brain for humanoid robots. The project…

这个 GitHub 项目在“Psi-Zero vs RT-2 benchmark comparison”上为什么会引发关注?

Psi-Zero's architecture is a direct response to the limitations of previous robot learning paradigms. Traditional approaches often rely on modular pipelines: a vision module for object detection, a separate language mode…

从“how to fine-tune Psi-Zero on custom humanoid robot”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2529,近一日增长约为 925,这说明它在开源社区具有较强讨论度和扩散能力。