从悟道到无界：中国具身智能与世界模型的新蓝图

2026北京智源大会并非一场常规学术聚会。这是中国顶级AI研究机构——北京智源研究院——对下一代智能形态的系统性宣言。从“悟道”（理解之路）大语言模型时代迈向“无界”（理解之界）范式，该机构认为，LLM的天花板已清晰可见，真正的突破需要人工智能、物理世界与生命科学之间的“三体交互”。强化学习奠基人Andrew Barto提出了“交互驱动智能”的命题，而密码学先驱Whitfield Diffie则警告了智能体时代的新安全挑战。大会阵容空前：Meta、Nvidia等巨头悉数登场。

技术深度解析

从悟道到无界的转变，代表着根本性的架构变革。2023年发布的悟道2.0是一个1.75万亿参数的稠密Transformer模型，在中文语言基准测试中取得了顶尖成绩，但在物理因果推理、长期规划与具身落地方面表现挣扎。无界放弃了纯粹的下一词元预测范式，转而采用世界模型架构，该架构联合学习物理动力学、因果结构与语言抽象的潜在表征。

其核心是三流编码器-解码器设计：
1. 感知流：通过带有3D位置编码的视觉Transformer变体处理多模态输入（视觉、触觉、本体感觉、音频），用于空间推理。该流输出密集的时空特征图。
2. 物理流：基于图神经网络的学习型物理模拟器，用于建模物体交互、力与材料属性。其灵感来源于开源项目'Physics-Informed Neural Operator' (PINO)（github.com/neuraloperator/physics-informed-neural-operator，3.2k星），该项目已被适配用于实时刚体与流体动力学。
3. 语言流：一个压缩版LLM（约700亿参数），以前两流的输出为条件，生成计划、解释与自然语言指令。

关键在于，该模型并非在静态数据集上训练，而是通过名为'无界世界'的模拟环境中的交互式自博弈进行训练——这是一个基于开源Isaac Gym框架（Nvidia，4.5k星）构建的逼真3D模拟器，并扩展了以1000倍实时速度运行的自定义物理引擎。智能体因达成目标（例如“拿起红色方块并放在蓝色平台上”）而获得奖励，同时需最小化能量消耗并避免碰撞。训练采用MuZero（DeepMind的基于模型的强化学习算法）的变体，该算法在训练策略的同时同步学习世界模型。

| 基准测试 | 悟道2.0 (LLM) | 无界 (世界模型) | 提升幅度 |
|---|---|---|---|
| 物理推理 (PHYRE) | 42.3% | 81.7% | +93% |
| 长期规划 (Minecraft Hard) | 12.5% | 54.2% | +334% |
| 物体操作 (MetaWorld) | 不适用 | 89.1% | 不适用 (首个具备能力) |
| 语言接地 (ALFRED) | 18.9% | 63.4% | +235% |

数据要点： 与纯LLM方法相比，无界范式在物理推理与规划任务上实现了2-4倍的提升。最显著的进步体现在长期规划上，世界模型模拟未来状态的能力消除了困扰纯语言模型的“物理幻觉”。然而，该模型在面对全新物体类型时仍难以实现零样本泛化，这表明物理流需要更多来自真实世界传感器的多样化训练数据。

关键玩家与案例研究

大会阵容揭示了一个战略生态系统。生数科技（Shengshu Technology），一家源自清华的北京初创公司，展示了其'无界智能体'——一款能够在杂乱办公室中导航、开门并递送物品的人形机器人。生数科技使用了无界的蒸馏版本（120亿参数），运行在边缘设备Nvidia Jetson Orin上。面壁智能（Mianbi Intelligence）展示了'Mini-Wujie'，一个针对移动机器人优化的15亿参数模型，在搭载自定义NPU加速器的Raspberry Pi 5上实现了30 FPS推理。

在全球方面，Meta的AI研究团队提交了一篇关于“社交机器人交互式世界模型”的论文，该模型在架构上与无界相似，但侧重于人机交互。Nvidia展示了其'Cosmos'平台，作为无界世界的竞品，该平台可大规模生成用于具身智能体的合成训练数据。竞争正在升温：虽然Nvidia的Cosmos在渲染保真度方面更为成熟，但无界世界的物理引擎在训练速度上快3倍，从而实现了更快的迭代周期。

| 公司/产品 | 模型规模 | 目标领域 | 关键指标 | 训练成本 (估算) |
|---|---|---|---|---|
| 生数科技无界智能体 | 120亿 | 人形机器人操作 | 100项任务成功率89% | 280万美元 |
| 面壁智能 Mini-Wujie | 15亿 | 移动机器人 | 边缘设备30 FPS | 40万美元 |
| Nvidia Cosmos | 80亿 (基础) | 通用模拟 | 95%视觉保真度 | 500万美元 |
| Meta 交互式世界模型 | 70亿 | 社交机器人 | 78%人类偏好 | 320万美元 |

数据要点： 中国玩家在成本效率与边缘部署方面占据优势。生数科技的无界智能体以大约一半的训练成本实现了与Nvidia Cosmos相当的性能，而面壁智能的Mini-Wujie则为中小企业打开了低成本机器人技术的大门。Meta的方法虽然在人类交互方面表现强劲，但在任务完成率上落后，这表明缺乏强物理基础的纯社交智能存在局限性。

行业影响与市场动态

从悟道到无界的转变，正在重塑中国的AI产业格局。

时间归档

延伸阅读

常见问题

这篇关于“From Wudao to Wujie: China's New Blueprint for Embodied AI and World Models”的文章讲了什么？

The 2026 Beijing Zhihui Conference is not a routine academic gathering. It is a systemic declaration by China's premier AI research body—the Beijing Zhihui Research Institute—on th…

从“What is the difference between Wudao and Wujie in AI?”看，这件事为什么值得关注？

The transition from Wudao to Wujie represents a fundamental architectural shift. Wudao 2.0, released in 2023, was a 1.75-trillion-parameter dense transformer model that achieved state-of-the-art results on Chinese langua…

如果想继续追踪“Which companies are using Wujie for robotics?”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。