技术深度解析
戴盟机器人转向“物理世界模型”,代表着机器人学习主流范式中一次根本性的架构变革。当前大多数系统,包括行业领导者如 Google RT-2 或 Covariant 基于强化学习的方法,都运行在“感知-规划”流水线上。摄像头将图像输入视觉编码器(通常是 ResNet 或 ViT),输出特征图给策略网络,再由策略网络将状态映射为动作。这种方式在受控环境中有效,但当物理条件发生变化——不同的表面摩擦力、意外的物体重量或动态环境——时,就会灾难性地失败。
戴盟的新首席科学家带来了阿里通义实验室的专业知识,该实验室开发了 Qwen-VL 多模态模型家族。其核心技术思路是将机器人控制不再视为一个从零开始的强化学习问题,而是作为一个大规模预训练多模态基础模型的下游任务。提出的架构可能类似于 Transformer 的“世界模型”变体,其中模型学习物理状态转换的潜在表示。它不再预测下一个像素,而是预测下一个物理状态:位置、速度、力、扭矩和接触几何。
这里的一个关键使能技术是使用扩散模型进行动作生成,类似于开源仓库 diffusion_policy(Chi 等人,GitHub 上超过 3000 星)中的做法。Diffusion Policy 将动作序列视为一个去噪过程,从嘈杂的初始条件生成平滑、物理上合理的轨迹。戴盟可以通过将扩散过程条件化为多模态输入来扩展这一点——不仅是摄像头图像,还有来自夹爪的触觉传感器读数和力-扭矩传感器。另一个相关的仓库是 robomimic(超过 1500 星),它提供了一个用于模仿学习和离线强化学习的标准化框架,但戴盟的方法可能会更进一步,通过在神经网络内部集成一个学习的物理模拟器,类似于 Planner(来自 DeepMind)或 Dreamer 系列世界模型。
一个关键的技术挑战是 sim-to-real 差距。戴盟需要在大规模并行模拟环境(例如 Isaac Gym 或 MuJoCo)中训练其世界模型,但确保学到的物理规律能泛化到现实世界。解决方案可能涉及领域随机化和对抗训练,使模型对摩擦、质量和光照的变化具有鲁棒性。首席科学家的多模态背景在这里至关重要:通过在互联网规模的视频和文本数据上进行预训练,模型可以学习关于物体可供性(例如“杯子能盛液体”)的先验知识,这些知识可以迁移到现实世界的操作中。
数据要点: 从纯视觉到多模态物理世界模型的转变并非渐进式的——它需要对训练流程进行彻底重新思考,从数据收集(模拟 + 真实世界触觉)到模型架构(扩散 Transformer)再到推理(实时物理预测)。成功取决于戴盟能否为视觉、触觉和力实现一个统一的潜在空间。
关键参与者与案例研究
戴盟并非孤军奋战。多家公司和研究团队也在追求类似的物理世界模型策略,尽管技术重点不同。下表比较了关键参与者:
| 公司/项目 | 方法 | 关键技术重点 | 融资/阶段 | 显著弱点 |
|---|---|---|---|---|
| 戴盟机器人 | 多模态基础模型 + 世界模型 | 视觉、语言、力、触觉融合;扩散策略 | 九位数人民币 A 轮 | 规模未经验证;团队规模小 |
| Google DeepMind (RT-2) | 视觉-语言-动作模型 | 大规模网络预训练 (PaLM-E),零样本泛化 | 企业研发 | 计算成本高;灵巧性有限 |
| Covariant | 强化学习 + 视觉 Transformer | 仓库拣选;专有 RLHF | 融资超 2 亿美元 | 领域狭窄;难以处理新物体 |
| Physical Intelligence (π) | 通用操作策略 | 从人类数据端到端模仿学习 | 7000 万美元种子轮 | 数据饥渴;仅限于 20-30 个任务 |
| Nvidia (Isaac Lab) | 模拟优先的世界模型 | GPU 加速物理,数字孪生 | 平台型产品 | 非机器人公司;为他人提供工具 |
戴盟的赌注在于,其多模态基础模型方法可以跨越数据效率问题。例如,Covariant 需要数百万次真实世界的拣选尝试来训练其模型。戴盟希望通过利用从视频和文本中预训练的物理知识,以数量级更少的真实数据实现可比性能。首席科学家之前在阿里巴巴从事 Qwen-VL 的工作(该模型在 MMBench 和 SEED-Bench 等多模态基准测试中达到了最先进水平),为此提供了坚实基础。
另一个案例研究是开源项目 Octo(由加州大学伯克利分校 RAIL 实验室开发),这是一个用于机器人的大型语言模型,使用 Transformer 将视觉输入映射到动作序列。Octo 在多个机器人数据集上进行了预训练,展示了跨不同硬件平台的零样本迁移能力,但其物理推理能力仍然有限,因为它主要学习的是运动学模式而非动力学因果。戴盟的方法旨在通过显式建模力、扭矩和接触动力学来超越此类模型。
行业影响与展望
戴盟的战略转向反映了机器人领域更广泛的趋势:从“感知-规划”范式向“理解-行动”范式的转变,其中行动直接源于对物理世界的因果理解。如果成功,这可能解锁机器人技术在非结构化环境中的部署——家庭、医院、建筑工地——在这些环境中,物理条件不可预测且变化多端。
然而,风险同样巨大。物理世界模型在计算上极其昂贵,训练需要大量模拟和真实数据,并且 sim-to-real 差距仍然是一个尚未完全解决的挑战。戴盟的新首席科学家能否将其在语言和视觉多模态方面的专业知识成功转化为机器人物理推理,还有待观察。但有一点是明确的:戴盟不再仅仅是一家机器人视觉公司。它正在押注于机器人智能的下一个前沿——理解物理世界如何运作。