技术深度解析
高继扬的论点建立在一个关键的技术洞察之上:具身智能的瓶颈不在于硬件,而在于能够实现跨非结构化环境泛化的软件栈。当前大多数机器人运行在预编程的例程或狭窄的强化学习策略上,一旦环境发生变化——比如桌子移动了六英寸、箱子纹理不同、光照改变——就会失效。星图智造的方法围绕一个三层架构展开:
1. 世界模型层:基于视频数据和仿真构建的物理与物体交互学习表征。该层无需对每个物体进行显式建模即可预测动作的结果。MIT的Improbable AI Lab近期关于“从视频中学习世界模型”的工作(仓库:`world-models`)表明,将神经辐射场(NeRFs)与基于Transformer的动态预测器相结合,相比纯物理仿真器可将预测误差降低40%。
2. LLM推理层:一个精简的大语言模型(如LLaMA-3-8B或Qwen2.5-7B)充当任务规划器,将高级指令(“从货架上拿红色盒子”)翻译成一系列子目标。该层处理歧义,并可查询世界模型进行可行性检查。
3. 实时传感器融合层:一个轻量级Transformer(如Perceiver IO)以60Hz的频率融合来自RGB摄像头、深度传感器和触觉反馈的数据,持续更新世界模型。这是关键所在——安全运行的延迟必须低于50毫秒。
| 组件 | 方法 | 延迟 | 泛化能力 | 开源参考 |
|---|---|---|---|---|
| 世界模型 | NeRF + Transformer | 100ms(推理) | 高(跨物体形状) | `world-models`(GitHub,4.2k星) |
| LLM规划器 | 精简7B模型 | 200-400ms | 非常高(任务级) | `LLaMA-3-8B`(Meta) |
| 传感器融合 | Perceiver IO | 20ms | 中等(领域特定) | `perceiver-io`(DeepMind,1.8k星) |
数据要点:传感器融合层对于实际部署最为关键——它必须极快且鲁棒。当前的开源解决方案在延迟敏感任务上尚未达到生产就绪状态。
关键挑战在于少样本泛化:仅用1-5次演示教会机器人一个新任务。高继扬的团队依赖一种称为“视频条件策略学习”的技术,其中演示视频被编码成潜在表征,进而条件化策略网络。这类似于Google DeepMind的RT-2,但针对低计算边缘设备进行了优化。开源仓库`robomimic`(8.5k星)提供了一个基线,但星图智造对其进行了修改,采用基于扩散的动作生成,在杂乱环境中成功率提高了30%。
编辑观点:这场竞赛不在于打造更好的机械臂——而在于构建一个能从少量示例中学习并将知识迁移到不同硬件上的软件栈。解决这一“学习瓶颈”的公司将掌控市场。
关键玩家与案例研究
高继扬的愿景使星图智造与多家资金雄厚的玩家直接竞争,但带有独特的战略转折。当Tesla和Figure全力押注人形形态、Covariant专注于物流的抓取放置时,星图智造押注于模块化、非人形的方法。
| 公司 | 形态 | 核心战略 | 融资(估) | 关键客户垂直领域 |
|---|---|---|---|---|
| 星图智造 | 模块化机械臂+移动底座 | 智能即服务,改造现有工作流 | 1.2亿美元(B轮) | 仓储、零售、轻制造 |
| Tesla(Optimus) | 人形 | 全硬件+AI集成,用于工厂自动化 | 100亿美元+(内部) | 汽车、通用制造 |
| Figure AI | 人形 | 通用劳动力替代 | 15亿美元(C轮) | 物流、仓储 |
| Covariant | 机械臂+AI大脑 | 抓取放置专业化 | 6亿美元(D轮) | 电商履约 |
| Physical Intelligence | 通用软件 | 通用机器人操作系统(π0模型) | 4亿美元(B轮) | 多领域(研发阶段) |
数据要点:星图智造的融资规模与人形机器人竞争对手相比相对较小,但其IaaS模式可能带来更高的利润率和更快的部署周期。关键风险在于,一旦大型玩家遇到硬件规模化瓶颈,它们可能会转向模块化方法。
一个值得注意的案例是星图智造在中国某大型电商仓库的部署。该公司没有替换整个传送系统,而是在关键分拣站安装了20个模块化机械臂。每个机械臂在每种产品类型仅需3次演示后,就学会了处理15种产品类型。结果:6个月内分拣劳动力成本降低35%,投资回收期为14个月。相比之下,竞争对手在宝马工厂的人形机器人部署需要18个月的集成时间,且由于安全限制仅实现了20%的劳动力减少。
编辑观点:星图智造的方法证明了“少即是多”——通过改造而非替换现有基础设施,该公司实现了更快的投资回报和更低的部署风险。对于追求短期投资回报率的企业客户而言,这比人形机器人的长期愿景更具吸引力。