认知科学重写机器人学:前华为负责人押注十亿,用世界模型破局

May 2026
world modelembodied intelligence归档:May 2026
前华为“具身大脑”项目负责人离职创业,已获数亿元融资。团队摒弃暴力数据训练,从认知科学原理重建世界模型,旨在赋予机器人对空间、因果与决策的真正理解。

这位曾主导华为“具身大脑”计划的创始人,已悄然成立一家初创公司,专注于一条截然不同的具身智能路径。当业界竞相追逐海量数据集与算力,通过模仿学习扩大规模时,该团队押注:通往通用机器人的钥匙,在于将人类认知机制——我们如何感知空间、预测因果、在不确定性中行动——直接编码进机器人的世界模型。公司已完成一轮十亿元(超1.4亿美元)融资,表明投资者坚信“认知优先”路线能克服当前系统致命的泛化失败。AINews认为,这代表一种潜在的范式转移:若成功,机器人将不再只是统计关联的奴隶,而是具备真正理解与推理能力的智能体。

技术深度解析

这里的核心创新并非新传感器或执行器,而是对机器人内部世界表征——其“世界模型”——的根本性重构。主流方法(如Google DeepMind的RT-2,或各类扩散策略方法)将世界模型视为一个端到端训练的黑箱神经网络,基于数十亿图像-动作对。机器人学习统计关联:“如果我看到这个像素模式,就应该输出那个关节角度。”这在分布内表现惊艳,但在分布外则灾难性失败。一把旋转90度的椅子、不同的光照条件或一个陌生物体,都可能导致模型“幻觉”出荒谬动作。

这种根植于认知科学的新方法,构建了一个受人类与动物导航现实启发的结构化世界模型。其架构很可能混合了以下组件:

1. 空间认知地图: 受诺贝尔奖得主O'Keefe与Moser关于海马体位置细胞与网格细胞研究的启发。机器人构建的不是像素网格,而是其环境的拓扑与度量地图,编码物体、表面与自由空间之间的关系。这不是3D网格,而是一个符号化的关系图,可通过稀疏观测进行更新。

2. 因果推理引擎: 模型不仅预测下一帧,还学习因果结构。例如,“如果杯子在桌子边缘之外,推动它会导致它掉落。”这通过物体中心表征学习(如GitHub上日益受关注的'Object-Centric Learning'仓库,或'CausalWorld'基准测试)等技术实现。机器人能在内部模拟“如果……会怎样”的场景,通过推理行动的因果后果来规划行动,而非仅依赖统计概率。

3. 主动推理与自由能原理: 决策循环很可能由Karl Friston的自由能原理框架主导。机器人不仅被动反应,还主动寻求最小化“惊讶”(预测误差),通过选择能确认其世界模型的行动。这与最大化奖励信号的强化学习有根本区别。在这里,机器人被内在动机驱动去理解和探索,从而产生更鲁棒、更可泛化的行为。

技术路线对比:

| 特征 | 主流(数据驱动) | 认知科学方法 |
|---|---|---|
| 核心世界模型 | 端到端神经网络(如Transformer) | 结构化、符号-关系图 + 因果引擎 |
| 学习信号 | 基于(图像,动作)对的监督学习 | 预测误差最小化(自由能)+ 因果推理 |
| 泛化能力 | 差;对分布偏移脆弱 | 高;利用抽象因果规则与空间推理 |
| 样本效率 | 极低(数十亿样本) | 高(可从少量演示中学习) |
| 可解释性 | 低(黑箱) | 高(显式空间与因果表征) |
| 推理时算力 | 高(大规模前向传播) | 中等(符号推理 + 小型神经组件) |

数据要点: 认知方法用结构先验换取了原始统计能力。虽然在狭窄、高数据基准上初期可能表现不佳,但其优越的泛化能力与样本效率,是解锁真正通用机器人的关键——这些机器人能在家庭、医院与非结构化环境中工作。

相关开源仓库:
- `spatial-semantic-map`(GitHub): 一个为机器人构建层级化、物体中心地图的框架,与认知地图概念一致。
- `causal-world`(GitHub): 一个用于机器人操作中因果推理的基准测试与工具包,直接关联因果推理引擎。
- `pymdp`(GitHub): 一个实现主动推理模型的Python库,为基于自由能的控制循环提供实用起点。

关键玩家与案例研究

这并非单打独斗。团队很可能由来自华为“具身大脑”实验室的研究人员组成——该实验室本身就是一个由机器人学家、认知科学家与AI工程师组成的跨学科团队。创始人的背景至关重要:曾主导大型企业项目,他们拥有技术信誉与运营经验,能执行这一高风险、高回报的愿景。

竞争路线与公司:

| 公司/项目 | 方法 | 核心优势 | 核心弱点 |
|---|---|---|---|
| Google DeepMind (RT-2, AutoRT) | 海量数据 + Transformer | 来自网络数据的广泛技能库 | 泛化差,计算成本高 |
| Tesla (Optimus) | 基于视觉的端到端学习 | 紧密的软硬件集成 | 对陌生环境脆弱 |
| Physical Intelligence (π0) | 机器人基础模型 | 来自多样化数据的通用策略 | 仍依赖统计关联 |

相关专题

world model61 篇相关文章embodied intelligence30 篇相关文章

时间归档

May 20262703 篇已发布文章

延伸阅读

Jim Fan 宣告 VLA 与遥操作已死:NVIDIA 的世界模型革命NVIDIA 顶级机器人专家 Jim Fan 宣称视觉-语言-动作(VLA)模型与遥操作技术“已死”。这并非危言耸听,而是对当前机器人学习范式的根本性质疑。AINews 深度剖析世界模型转向及其对行业的意义。前美团高管押注厨房机器人:不做人形,专攻后厨,解决中国餐厅用工荒前美团外卖业务负责人创立「元界智能」,获数千万元种子轮融资。这家公司明确拒绝人形机器人热潮,转而研发专为餐厅后厨设计的具身智能系统。其核心策略是:让机器人适应油污、高温与混乱的真实厨房,而非要求厨房为机器人重新设计。出行数据玩家如何用真实场景重新定义AI模型训练一家出行数据公司构建了一个闭环系统,捕捉真实世界的多模态数据——交通信号、拥堵状况、乘客行为——并直接输入AI模型。这使每一次出行都成为训练信号,加速大语言模型、世界模型和智能体的进化,将AI竞赛从算力比拼转向场景所有权之争。2026 AIGC Landscape: Who Is Building Real Value as the Hype Fades?The 2026 AIGC landscape reveals a stark divide: tech giants bet on world models for robotics, while startups deploy reve

常见问题

这起“Cognitive Science Rewrites Robotics: Ex-Huawei Lead's Billion-Yuan Bet on World Models”融资事件讲了什么?

The founder, who previously headed Huawei's 'Embodied Brain' initiative, has launched a stealth startup focused on a radically different approach to embodied intelligence. While th…

从“ex-Huawei robotics startup cognitive science world model”看,为什么这笔融资值得关注?

The core innovation here is not a new sensor or actuator, but a fundamental rethinking of the robot's internal representation of the world—its 'world model.' Mainstream approaches (e.g., RT-2 from Google DeepMind, or the…

这起融资事件在“billion yuan funding round embodied intelligence China”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。