具身智能迈入资本“季后赛”时代,280亿美元估值成新入场券

具身智能赛道已跨越关键门槛。领军企业星海图完成的28亿美元里程碑式融资,不仅是一家公司的胜利,更标志着行业正从技术演示阶段,转向资本密集的“季后赛”时代。280亿美元估值,正成为参与严肃竞争的隐性入场券。

星海图近期完成的200亿元人民币(约合28亿美元)D轮融资,是具身AI行业的标志性分水岭。这笔由主权财富基金与全球科技投资机构领投的巨额资金,彻底重塑了竞争格局。行业分析指出,此举确立了新的财务基准,将行业焦点从受控环境下的概念验证演示,转向构建可扩展、可靠且具备商业可行性的机器人系统所面临的系统性挑战。核心论点是:具身AI已进入“资本季后赛”阶段。此前的“资格赛”由学术研究、单任务机器人演示和早期风险投资定义,而如今,竞争已升级为规模化部署与持续数据飞轮驱动的硬仗。巨额融资将用于构建大规模“体验工厂”——即专门用于持续数据收集与策略训练的机器人设施,这已成为头部玩家的新赌注。行业正从比拼单项技术突破,转向比拼资本耐力、系统工程能力与商业化落地的综合实力。

技术深度解析

从研究原型到具备商业可行性的具身AI系统,这或许是现代AI领域最具挑战性的工程难题。它要求无缝集成感知、认知与行动三大技术栈,且所有操作都必须在延迟、功耗和安全性的严苛现实约束下进行。

下一代技术的核心在于 “世界模型” 。与处理符号标记的大语言模型不同,机器人学的世界模型必须学习物理动力学、对象可供性及任务语义的压缩、可操作的表示。领先方法包括:

* 扩散策略与Transformer架构: 星海图及谷歌DeepMind(凭借其RT-2模型)等公司正率先使用基于海量机器人轨迹数据集(如Open X-Embodiment)训练的扩散模型和Transformer架构。这些模型能根据多模态输入(图像、文本、本体感觉)生成合理的动作序列。
* 仿真到现实学习: 构建世界模型需要大量的交互数据,完全在现实世界中收集成本极高。NVIDIA的Isaac Sim等先进仿真引擎及开源框架如 `facebookresearch/habitat-sim` (GitHub,约2.3k星)至关重要。它们使得在高度逼真、物理合理的虚拟环境中训练策略,再迁移到实体机器人成为可能。核心挑战仍是弥合“现实鸿沟”——即仿真与真实世界物理之间的差异。
* 分层规划架构: 对于复杂、长周期的任务(如“清空洗碗机并将碗碟收好”),单一模型难以胜任。新兴架构是分层式的:高层任务规划器(通常基于LLM)将指令分解为子目标,而低层“技能”模型(通过强化学习或模仿学习训练)则执行原始动作。这两个层级间的协调层是主要的研究前沿。

性能基准与成本分析:

| 系统/方法 | 训练数据规模(机器人工作时长) | 百项任务基准成功率 | 预估训练算力(GPU-天) | 关键局限 |
|---|---|---|---|---|
| 经典强化学习(如DDPG) | 10,000+ 小时 | ~35% | 500 | 样本效率低;对新环境脆弱。 |
| 大规模模仿学习(RT-1) | 130,000 小时 | ~65% | 2,000 | 泛化能力受限于训练数据分布。 |
| 视觉-语言-动作模型(RT-2) | 网络规模数据 + 机器人数据 | ~75% | 10,000+ | 在精确操控和长周期推理方面存在困难。 |
| 新兴世界模型(预测) | 100万+ 仿真小时 + 10万 现实小时 | 目标 >90% | 50,000+ | 集成复杂度高;仿真到现实的迁移保真度挑战。 |

数据启示: 上表揭示了数据/算力投入与任务成功率之间的指数级关系。构建一个健壮的“世界模型”系统,其预计需求比当前最先进水平至少高出一个数量级,这为巨额融资提供了合理性。行业的转变正从训练单任务策略,转向构建物理交互的基础模型。

关键参与者与案例研究

具身AI领域正根据技术路径、资本获取能力和垂直领域专注度,分化成不同层级。

第一梯队:全栈通用型玩家(估值 > 100亿美元)
* 星海图: 本文分析的催化剂。其战略是垂直整合的技术栈:专有的执行器硬件、统一的“神经符号世界引擎”软件平台,以及聚焦物流与制造业的定位。其融资将专门用于建设所谓的“体验工厂”——即致力于持续数据收集和策略训练的大规模机器人设施。
* Figure AI: 背靠微软、OpenAI和NVIDIA,Figure代表了“LLM优先”的路径。其旨在利用OpenAI的模型进行高层推理和快速迭代,并结合专门设计的人形机器人硬件。他们的赌注在于,语言模型的强大能力可以绕过传统机器人编程所需的多年积累。
* 特斯拉Optimus: 埃隆·马斯克押注于规模与制造。特斯拉的优势在于其从汽车获取的海量现实世界视频数据、在电池和电机技术方面的专长,以及自有的Dojo超级计算机。风险则在于主业分心,以及驾驶与灵巧操控之间存在根本性差异。

第二梯队:垂直领域专家与平台提供商
* 波士顿动力(现代汽车旗下): 动态运动与硬件领域的黄金标准。目前正从炫目的演示转向商业可行性,推出Stretch(仓库搬运箱机器人)和Spot,并辅以基于AI的任务学习能力。
* NVIDIA: 军火商角色。其Omniverse和Isaac Lab平台正成为默认的仿真与训练环境,而其GR00T项目旨在为人形机器人提供基础模型。

延伸阅读

具身智能迎来“GPT-3时刻”:一小时训练达成99%成功率,缩放定律终获物理验证长期被假设的“具身缩放定律”获得决定性验证。一家领先的AI公司展示了一套系统,让机器人仅通过一小时的模拟训练,便能学会一项全新的复杂物理操作任务,并在现实世界中部署时达到99%的成功率。这标志着AI从纯软件智能向可扩展、快速适应的物理智能体地瓜机器人27亿美元豪赌具身智能,全球自动化迎来范式转移地瓜机器人近日完成总额27亿美元的B轮融资,其中最新一笔达15亿美元,创下机器人史上最大单笔投资之一。这笔巨额资本标志着一个深刻的行业转向:从专用自动化迈向能在动态现实场景中运作的通用认知机器。资金将全力推动其机器人即服务(RaaS)模式的GPT-6蓝图曝光:OpenAI战略转向,从大语言模型迈向“智能体AGI”时代GPT-6的初步蓝图揭示了一场AI发展的“板块运动”。OpenAI的目标已非单纯的语言模型升级,而是构建一个具备自主推理与行动能力的认知架构,这标志着其正果断转向以智能体为核心的人工通用智能(AGI)之路。Meituan's Radical Bet on Native Multimodal AI: Tokenizing the Physical WorldMeituan is pursuing a radical, unified approach to multimodal AI that could redefine its entire local services ecosystem

常见问题

这起“Embodied AI Enters Capital 'Playoffs' Era as $28B Valuation Becomes New Entry Ticket”融资事件讲了什么?

The recent completion of a 20 billion RMB (approximately $2.8 billion) Series D funding round by Xinghai Tu represents a watershed moment for the embodied AI industry. This monumen…

从“embodied AI startup valuation 2025”看,为什么这笔融资值得关注?

The leap from a research prototype to a commercially viable embodied AI system is arguably the most challenging engineering problem in modern AI. It requires the seamless integration of three colossal technical stacks: p…

这起融资事件在“Xinghai Tu world model vs Figure AI OpenAI”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。