技术深度解析
银河通用的架构代表了具身智能领域的真正飞跃。与依赖手工编码控制回路或在受限环境中进行强化学习的传统机器人不同,银河通用采用了一种视觉-语言-动作(VLA)模型,将7B参数的大语言模型(LLM)与基于扩散的动作解码器融合。该系统接收原始摄像头画面和自然语言指令,通过基于互联网规模文本和图像数据预训练的Transformer骨干网络进行处理,并以50Hz频率输出关节级扭矩指令。
关键创新在于动作分词层。该模型并非预测离散动作,而是生成接下来16个时间步的连续潜在表征,随后由轻量级扩散模型解码为精确的电机指令。这一方法受Google DeepMind的RT-2启发,但通过1000万真实机器人交互剧情的专有微调,使系统能够泛化到未见过的物体和环境,无需显式编程。
然而,其致命弱点是长时域任务可靠性。在受控实验室测试中,银河通用的机器人抓取放置成功率达95%。但在光线变化、物体遮挡、存在意外人为干扰的真实仓库中,10步序列任务成功率降至72%。对于50步装配任务,成功率更跌破40%。这正是客户犹豫的核心原因:40%的成功率对任何生产环境而言都不具备经济可行性。
| 基准测试 | 银河通用 | 竞争对手A(Boston Dynamics Spot) | 竞争对手B(Figure 02) |
|---|---|---|---|
| 抓取放置(实验室) | 95% | 98% | 93% |
| 抓取放置(仓库) | 72% | 85% | 68% |
| 10步序列(实验室) | 88% | 92% | 81% |
| 10步序列(仓库) | 40% | 60% | 35% |
| 单台成本 | 15万美元 | 7.5万美元 | 12万美元 |
| 推理延迟 | 120ms | 50ms | 200ms |
数据要点: 银河通用在实验室泛化能力上领先,但在真实条件下可靠性下降55%——是同行中退化最严重的。演示与部署之间的鸿沟是销售规模化的主要障碍。
在开源领域,LeRobot代码库(github.com/huggingface/lerobot,8000+星标)提供了更简单、更易用的模仿学习框架。银河通用的内部代码库是专有的,但其已发表的消融研究表明,他们使用了与LeRobot的ACT(动作分块Transformer)类似的架构,但数据和参数规模扩大了100倍。社区注意到,银河通用的结果不易复现,这对其声称性能的稳健性提出了质疑。
关键玩家与案例研究
银河通用并非具身智能竞赛中的独行者。竞争格局包括西方和中国玩家,各有不同策略。
Figure AI(由OpenAI、微软和NVIDIA支持)采取了不同方法:不追求完全通用性,而是专注于特定仓库任务的人形形态。Figure 02附带预训练的码垛和拆垛模型,在这些任务上实现了98%的可靠性。其2025年销量估计为800台,主要客户为亚马逊和DHL等物流公司。权衡显而易见:能力范围窄但可靠性高。
Boston Dynamics(现代汽车)继续完善Spot,这是一款专为巡检和数据收集设计的四足机器人。Spot年销量超过2000台,但其操作能力仅限于搬运载荷,而非灵巧装配。Boston Dynamics明确回避了通用操作市场,理由正是银河通用面临的可靠性挑战。
Agility Robotics(Digit)专注于双足物流,已在仓库部署500+台。其策略是以每月3000美元的机器人即服务(RaaS)模式销售,降低前期成本门槛。相比之下,银河通用以15万美元直接销售机器人,这将其可触达市场限制在拥有专门研发预算的大型企业。
| 公司 | 估值 | 2025年销量 | 平均单价 | 主要市场 |
|---|---|---|---|---|
| 银河通用 | 27亿美元 | 150台 | 15万美元 | 研发实验室、试点项目 |
| Figure AI | 26亿美元 | 800台 | 12万美元 | 仓库物流 |
| Boston Dynamics | ~40亿美元(估) | 2000+台 | 7.5万美元 | 巡检、安防 |
| Agility Robotics | 15亿美元 | 500+台 | 3.6万美元(RaaS) | 物流、电商 |
数据要点: 银河通用每售出一台机器人对应的估值(1800万美元/台)是Figure AI(325万美元/台)的10倍。这一极端倍数表明,投资者押注的是未来垄断,而非当前收入。风险在于,Figure AI或Agility可能在银河通用解决可靠性问题之前转向通用操作。
一个值得注意的案例是特斯拉的Optimus。埃隆·马斯克多次承诺在2026年前实现量产,但截至目前,Optimus仍主要停留在概念验证阶段,尚未有公开的批量部署记录。特斯拉的优势在于其垂直整合的供应链和制造能力,但具身智能的软件可靠性挑战同样困扰着他们。