具身智能的终局不是机器人,而是重新定义劳动本身

June 2026
embodied AIworld model归档:June 2026
星图智造CEO高继扬认为,具身智能的终极目标并非量产人形机器人,而是将智能系统性地嵌入仓储、零售和制造等B2B工作流中。这场变革将是渐进而非爆发式的,最终的赢家将是那些把智能作为基础设施而非硬件来销售的公司。

在AINews的独家专访中,星图智造CEO高继扬对当前围绕人形机器人的炒作热潮提出了挑战。他断言,具身智能真正的商业机会在于通过智能服务对劳动进行安静、渐进式的重构。高继扬指出,行业对花哨的机器人演示的痴迷偏离了重点:真正的突破将来自将AI嵌入现有的B2B工作流——仓储、零售、工业检测、科学研究——在这些场景中,AI无需彻底改造物理基础设施就能带来可量化的成本节约。星图智造的战略正体现了这一理念:该公司不打造通用人形机器人,而是开发可改造到现有运营中的模块化智能系统。

技术深度解析

高继扬的论点建立在一个关键的技术洞察之上:具身智能的瓶颈不在于硬件,而在于能够实现跨非结构化环境泛化的软件栈。当前大多数机器人运行在预编程的例程或狭窄的强化学习策略上,一旦环境发生变化——比如桌子移动了六英寸、箱子纹理不同、光照改变——就会失效。星图智造的方法围绕一个三层架构展开:

1. 世界模型层:基于视频数据和仿真构建的物理与物体交互学习表征。该层无需对每个物体进行显式建模即可预测动作的结果。MIT的Improbable AI Lab近期关于“从视频中学习世界模型”的工作(仓库:`world-models`)表明,将神经辐射场(NeRFs)与基于Transformer的动态预测器相结合,相比纯物理仿真器可将预测误差降低40%。

2. LLM推理层:一个精简的大语言模型(如LLaMA-3-8B或Qwen2.5-7B)充当任务规划器,将高级指令(“从货架上拿红色盒子”)翻译成一系列子目标。该层处理歧义,并可查询世界模型进行可行性检查。

3. 实时传感器融合层:一个轻量级Transformer(如Perceiver IO)以60Hz的频率融合来自RGB摄像头、深度传感器和触觉反馈的数据,持续更新世界模型。这是关键所在——安全运行的延迟必须低于50毫秒。

| 组件 | 方法 | 延迟 | 泛化能力 | 开源参考 |
|---|---|---|---|---|
| 世界模型 | NeRF + Transformer | 100ms(推理) | 高(跨物体形状) | `world-models`(GitHub,4.2k星) |
| LLM规划器 | 精简7B模型 | 200-400ms | 非常高(任务级) | `LLaMA-3-8B`(Meta) |
| 传感器融合 | Perceiver IO | 20ms | 中等(领域特定) | `perceiver-io`(DeepMind,1.8k星) |

数据要点:传感器融合层对于实际部署最为关键——它必须极快且鲁棒。当前的开源解决方案在延迟敏感任务上尚未达到生产就绪状态。

关键挑战在于少样本泛化:仅用1-5次演示教会机器人一个新任务。高继扬的团队依赖一种称为“视频条件策略学习”的技术,其中演示视频被编码成潜在表征,进而条件化策略网络。这类似于Google DeepMind的RT-2,但针对低计算边缘设备进行了优化。开源仓库`robomimic`(8.5k星)提供了一个基线,但星图智造对其进行了修改,采用基于扩散的动作生成,在杂乱环境中成功率提高了30%。

编辑观点:这场竞赛不在于打造更好的机械臂——而在于构建一个能从少量示例中学习并将知识迁移到不同硬件上的软件栈。解决这一“学习瓶颈”的公司将掌控市场。

关键玩家与案例研究

高继扬的愿景使星图智造与多家资金雄厚的玩家直接竞争,但带有独特的战略转折。当Tesla和Figure全力押注人形形态、Covariant专注于物流的抓取放置时,星图智造押注于模块化、非人形的方法。

| 公司 | 形态 | 核心战略 | 融资(估) | 关键客户垂直领域 |
|---|---|---|---|---|
| 星图智造 | 模块化机械臂+移动底座 | 智能即服务,改造现有工作流 | 1.2亿美元(B轮) | 仓储、零售、轻制造 |
| Tesla(Optimus) | 人形 | 全硬件+AI集成,用于工厂自动化 | 100亿美元+(内部) | 汽车、通用制造 |
| Figure AI | 人形 | 通用劳动力替代 | 15亿美元(C轮) | 物流、仓储 |
| Covariant | 机械臂+AI大脑 | 抓取放置专业化 | 6亿美元(D轮) | 电商履约 |
| Physical Intelligence | 通用软件 | 通用机器人操作系统(π0模型) | 4亿美元(B轮) | 多领域(研发阶段) |

数据要点:星图智造的融资规模与人形机器人竞争对手相比相对较小,但其IaaS模式可能带来更高的利润率和更快的部署周期。关键风险在于,一旦大型玩家遇到硬件规模化瓶颈,它们可能会转向模块化方法。

一个值得注意的案例是星图智造在中国某大型电商仓库的部署。该公司没有替换整个传送系统,而是在关键分拣站安装了20个模块化机械臂。每个机械臂在每种产品类型仅需3次演示后,就学会了处理15种产品类型。结果:6个月内分拣劳动力成本降低35%,投资回收期为14个月。相比之下,竞争对手在宝马工厂的人形机器人部署需要18个月的集成时间,且由于安全限制仅实现了20%的劳动力减少。

编辑观点:星图智造的方法证明了“少即是多”——通过改造而非替换现有基础设施,该公司实现了更快的投资回报和更低的部署风险。对于追求短期投资回报率的企业客户而言,这比人形机器人的长期愿景更具吸引力。

相关专题

embodied AI180 篇相关文章world model87 篇相关文章

时间归档

June 20261654 篇已发布文章

延伸阅读

酷家乐战略转向空间智能:为物理世界构建AI基础设施作为“杭州六小龙”中首家上市公司,酷家乐正将其核心战略从设计软件转向空间智能基础设施。依托旗下旗舰平台酷家乐积累的海量结构化3D数据,该公司旨在构建理解并与物理世界交互的基础AI模型。此举标志着酷家乐正从工具供应商转型为AI时代空间理解的底DeepSeek 70亿美元弹药库:AI军备竞赛的新王登基据报道,DeepSeek 已完成一轮超过500亿元人民币(约70亿美元)的融资,这是人工智能领域有史以来规模最大的一笔融资。这不仅仅是资本,更是一份宣战书——旨在锁定算力、人才和基础设施,以主宰通往通用人工智能(AGI)的竞赛。Failure as Fuel: New Dataset Rewrites Robot Learning by Embracing MistakesA groundbreaking dataset released by Juniper Intelligence, Bodun, and Shanghai Jiao Tong University captures not just ro深圳重启全机器人酒店:这次为何不同十年前,全球首家全机器人酒店因僵化的自动化系统而折戟沉沙。如今,深圳正悄然重启这一概念,但绝非简单复刻——这是一场基于轻量级大语言模型、实时世界模型与人类介入架构的根本性变革,让机器人从“表演者”蜕变为“协作者”。

常见问题

这次公司发布“Embodied AI's Endgame Isn't Robots — It's Reinventing Labor Itself”主要讲了什么?

In an exclusive interview with AINews, StarMap CEO Gao Jiyang challenged the prevailing hype around humanoid robots, asserting that the real commercial opportunity for embodied AI…

从“StarMap CEO Gao Jiyang embodied AI strategy”看,这家公司的这次发布为什么值得关注?

Gao's thesis rests on a critical technical insight: the bottleneck in embodied AI is not hardware but the software stack that enables generalization across unstructured environments. Most current robots operate on pre-pr…

围绕“intelligence as a service vs humanoid robots”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。