技术深度解析
此次估值飙升根本上由两大融合的技术支柱支撑:作为语义规划器的大语言模型,以及作为物理模拟器的世界模型。诸如GPT-4、Claude 3以及Meta的Llama 3等开源替代方案,提供了高层次的任务分解和自然语言理解能力。它们能将「整理客厅」翻译成一系列抽象步骤。然而,革命性的组件是世界模型。
世界模型是对环境的一种习得性内部模拟。它使得智能体无需在现实世界中执行,即可预测其行动的后果,从而实现规划与常识推理。关键架构包括:
* 基于Transformer的视频预测模型: 如Google的VideoPoet和开源项目Phenaki展示了Transformer如何预测未来视频帧,这是世界模型的基础技能。
* 机器人学的扩散策略: 如哥伦比亚大学机器人学习实验室的Diffusion Policy仓库(已获超1.2k星标)通过将扩散模型(图像生成器背后的技术)直接应用于机器人动作序列,实现了多模态、鲁棒性强的策略生成。
* JEPA风格架构: 受Yann LeCun的联合嵌入预测架构启发,这类模型通过预测未来状态的表征而非像素来学习,从而实现更高效和抽象的推理。虽然目前尚无单一主导的开源JEPA实现,但这是一个活跃的研究前沿。
典型的融合技术栈如下:LLM处理意图和高层规划;世界模型为机器人的具体形态(例如双足与轮式底盘)模拟可能的行动结果;底层控制器(通常是扩散策略或强化学习智能体)执行优化后的计划。训练此技术栈需要海量、多样化的物理交互数据集,这正是Covariant、Figure AI以及此次估值飙升的初创公司等企业正在大规模构建真实与合成数据管道的原因。
| 模型/架构类型 | 主要功能 | 关键挑战 | 示例开源项目 (GitHub) |
|---|---|---|---|
| 大语言模型 | 语义理解、任务分解、生成动作代码 | 与现实物理世界接轨;「幻觉」出不可能的动作 | Llama 3 (Meta), Vicuna (LMSYS) |
| 世界模型 (视频预测) | 根据动作预测未来环境状态 | 计算成本高;难以扩展到长时程预测 | Phenaki (Google), VideoPoet (Google) |
| 世界模型 (JEPA风格) | 在抽象潜在/表征空间中进行预测 | 训练复杂;需精心设计潜在空间 | 活跃研究领域,尚无旗舰开源项目 |
| 扩散策略 | 底层、鲁棒的机器人动作生成 | 实时推理延迟 | diffusion_policy (哥伦比亚机器人学习实验室) |
核心洞见: 技术栈正在迅速成熟,但目前仍是专业化组件的拼合。最高估值将归属于那些能够最无缝地将这些不同模块——LLM推理、世界模拟和底层控制——整合成统一高效系统的团队。
关键参与者与案例研究
当前格局正分化为垂直整合的先锋与赋能技术提供商。
垂直整合的具身AI公司:
* Figure AI: 与宝马及最近的OpenAI合作,Figure是LLM+机器人融合的典范。其人形机器人利用OpenAI的模型进行高层推理,展示了自然语言对话与任务执行能力。
* 1X Technologies (原Halodi Robotics): 获OpenAI支持,生产Neo等仿生机器人,专注于为企业与消费市场提供安全、有用的机器人,强调由AI驱动的具身智能。
* Covariant: 源自加州大学伯克利分校的AI研究,其RFM(机器人基础模型)是构建通用物理工作AI的开创性尝试。它为全球仓库中的分拣机器人提供动力,展示了统一感知-行动模型的商业部署。
* 中国独角兽(估值飙升主体): 虽未在本文具名,但其轮廓符合这样一家公司:很可能展示了从先进感知(如专有3D视觉)到专有世界模型,再到灵巧操作的闭环系统,并全部包装在针对物流或制造业的、极具吸引力的服务型商业模式中。
赋能技术与研究实验室:
* Google DeepMind: 该领域的巨头,项目涵盖RT-2(视觉-语言-行动模型)、RoboCat(自我改进的机器人智能体)和AutoRT(用于大规模数据收集)。
* OpenAI: 虽非机器人公司,但其与Figure和1X的合作,以及对物理AI的投资,