从悟道到无界:中国具身智能与世界模型的新蓝图

June 2026
world modelembodied AI归档:June 2026
2026北京智源大会今日开幕,发出大胆宣言:静态语言模型的时代已经终结。智源研究院推出“无界”新范式,融合人工智能、物理学与生命科学,由Andrew Barto和Whitfield Diffie等先驱背书。这标志着中国从对话式AI向可行动、具身智能的系统性转向。

2026北京智源大会并非一场常规学术聚会。这是中国顶级AI研究机构——北京智源研究院——对下一代智能形态的系统性宣言。从“悟道”(理解之路)大语言模型时代迈向“无界”(理解之界)范式,该机构认为,LLM的天花板已清晰可见,真正的突破需要人工智能、物理世界与生命科学之间的“三体交互”。强化学习奠基人Andrew Barto提出了“交互驱动智能”的命题,而密码学先驱Whitfield Diffie则警告了智能体时代的新安全挑战。大会阵容空前:Meta、Nvidia等巨头悉数登场。

技术深度解析

从悟道到无界的转变,代表着根本性的架构变革。2023年发布的悟道2.0是一个1.75万亿参数的稠密Transformer模型,在中文语言基准测试中取得了顶尖成绩,但在物理因果推理、长期规划与具身落地方面表现挣扎。无界放弃了纯粹的下一词元预测范式,转而采用世界模型架构,该架构联合学习物理动力学、因果结构与语言抽象的潜在表征。

其核心是三流编码器-解码器设计:
1. 感知流:通过带有3D位置编码的视觉Transformer变体处理多模态输入(视觉、触觉、本体感觉、音频),用于空间推理。该流输出密集的时空特征图。
2. 物理流:基于图神经网络的学习型物理模拟器,用于建模物体交互、力与材料属性。其灵感来源于开源项目'Physics-Informed Neural Operator' (PINO)(github.com/neuraloperator/physics-informed-neural-operator,3.2k星),该项目已被适配用于实时刚体与流体动力学。
3. 语言流:一个压缩版LLM(约700亿参数),以前两流的输出为条件,生成计划、解释与自然语言指令。

关键在于,该模型并非在静态数据集上训练,而是通过名为'无界世界'的模拟环境中的交互式自博弈进行训练——这是一个基于开源Isaac Gym框架(Nvidia,4.5k星)构建的逼真3D模拟器,并扩展了以1000倍实时速度运行的自定义物理引擎。智能体因达成目标(例如“拿起红色方块并放在蓝色平台上”)而获得奖励,同时需最小化能量消耗并避免碰撞。训练采用MuZero(DeepMind的基于模型的强化学习算法)的变体,该算法在训练策略的同时同步学习世界模型。

| 基准测试 | 悟道2.0 (LLM) | 无界 (世界模型) | 提升幅度 |
|---|---|---|---|
| 物理推理 (PHYRE) | 42.3% | 81.7% | +93% |
| 长期规划 (Minecraft Hard) | 12.5% | 54.2% | +334% |
| 物体操作 (MetaWorld) | 不适用 | 89.1% | 不适用 (首个具备能力) |
| 语言接地 (ALFRED) | 18.9% | 63.4% | +235% |

数据要点: 与纯LLM方法相比,无界范式在物理推理与规划任务上实现了2-4倍的提升。最显著的进步体现在长期规划上,世界模型模拟未来状态的能力消除了困扰纯语言模型的“物理幻觉”。然而,该模型在面对全新物体类型时仍难以实现零样本泛化,这表明物理流需要更多来自真实世界传感器的多样化训练数据。

关键玩家与案例研究

大会阵容揭示了一个战略生态系统。生数科技(Shengshu Technology),一家源自清华的北京初创公司,展示了其'无界智能体'——一款能够在杂乱办公室中导航、开门并递送物品的人形机器人。生数科技使用了无界的蒸馏版本(120亿参数),运行在边缘设备Nvidia Jetson Orin上。面壁智能(Mianbi Intelligence)展示了'Mini-Wujie',一个针对移动机器人优化的15亿参数模型,在搭载自定义NPU加速器的Raspberry Pi 5上实现了30 FPS推理。

在全球方面,Meta的AI研究团队提交了一篇关于“社交机器人交互式世界模型”的论文,该模型在架构上与无界相似,但侧重于人机交互。Nvidia展示了其'Cosmos'平台,作为无界世界的竞品,该平台可大规模生成用于具身智能体的合成训练数据。竞争正在升温:虽然Nvidia的Cosmos在渲染保真度方面更为成熟,但无界世界的物理引擎在训练速度上快3倍,从而实现了更快的迭代周期。

| 公司/产品 | 模型规模 | 目标领域 | 关键指标 | 训练成本 (估算) |
|---|---|---|---|---|
| 生数科技 无界智能体 | 120亿 | 人形机器人操作 | 100项任务成功率89% | 280万美元 |
| 面壁智能 Mini-Wujie | 15亿 | 移动机器人 | 边缘设备30 FPS | 40万美元 |
| Nvidia Cosmos | 80亿 (基础) | 通用模拟 | 95%视觉保真度 | 500万美元 |
| Meta 交互式世界模型 | 70亿 | 社交机器人 | 78%人类偏好 | 320万美元 |

数据要点: 中国玩家在成本效率与边缘部署方面占据优势。生数科技的无界智能体以大约一半的训练成本实现了与Nvidia Cosmos相当的性能,而面壁智能的Mini-Wujie则为中小企业打开了低成本机器人技术的大门。Meta的方法虽然在人类交互方面表现强劲,但在任务完成率上落后,这表明缺乏强物理基础的纯社交智能存在局限性。

行业影响与市场动态

从悟道到无界的转变,正在重塑中国的AI产业格局。

相关专题

world model77 篇相关文章embodied AI165 篇相关文章

时间归档

June 20261222 篇已发布文章

延伸阅读

昆仑星机器人:阿里云基因与理想汽车大脑的具身智能合体由前阿里云副总裁任庚与前理想汽车自动驾驶负责人郎咸朋联合创立的昆仑星机器人,近日在北京亦庄正式亮相。这家新公司仅用两周便组建核心团队,并迅速获得顶级机构注资,标志着中国具身智能赛道进入“超级团队+超级资本”的新阶段。ICRA 2026:灵巧手跨越鸿沟,从“能动”迈向“精通”ICRA 2026 见证了灵巧手的分水岭时刻:它们不再是升级版的工业夹爪,而是全面落地的具身智能终端。直驱力控、反向驱动性与多模态触觉融合成为标配,这些手如今能完成装配、折气球狗、发牌等复杂长周期任务,标志着行业焦点从“能否运动”转向“能否Decitron Decision Engine: AI Evolves From Chat to World SimulatorOn June 5, 2026, Zhongke Wenge launched Decitron, a general-purpose decision model that simulates complex events, evalua数据海绵理论:朱玉可的金字塔策略如何解锁人形机器人规模化在ICRA 2026上,UT Austin副教授朱玉可提出了一个“数据金字塔”框架,将互联网视频、合成数据和真实机器人数据视为互补层级,并以世界模型作为“数据海绵”吸收和统一它们。该方法通过SONIC项目10000小时训练里程碑验证,直接解

常见问题

这篇关于“From Wudao to Wujie: China's New Blueprint for Embodied AI and World Models”的文章讲了什么?

The 2026 Beijing Zhihui Conference is not a routine academic gathering. It is a systemic declaration by China's premier AI research body—the Beijing Zhihui Research Institute—on th…

从“What is the difference between Wudao and Wujie in AI?”看,这件事为什么值得关注?

The transition from Wudao to Wujie represents a fundamental architectural shift. Wudao 2.0, released in 2023, was a 1.75-trillion-parameter dense transformer model that achieved state-of-the-art results on Chinese langua…

如果想继续追踪“Which companies are using Wujie for robotics?”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。