物理鸿沟：AI智能体为何在现实世界频频翻车，混合架构能否成为救星？

从数字认知到具身行动的跨越，暴露了当前AI智能体架构的一个致命盲区：它们无法可靠地与物理世界交互。一个能通过律师资格考试的模型，在抓取咖啡杯时仍可能将其捏碎——因为LLM运行在文本空间里，靠的是对token的模式匹配；而物理环境要求连续的传感器-动作闭环、实时适应能力，以及对重力、摩擦力和物体刚度的本能理解——这些能力，再多的“下一个token预测”也无法教会。

行业领袖们正悄然转向一种混合方案：将世界模型作为内部模拟器嵌入强化学习循环，让智能体在部署前先在虚拟环境中训练。这种“具身基础模型”范式，有望弥合数字认知与物理执行之间的鸿沟。但现实是，从仿真到真实世界的迁移（Sim-to-Real）依然充满挑战，且高保真世界模型的计算成本令人望而却步。

技术深度解析

核心问题在于架构：大语言模型本质上是离散的、无状态的模式匹配器。它们处理的是token序列，而非连续的传感器数据流。当一个智能体需要拿起一个杯子时，实时反馈回路——力度、滑移检测、角速度——在LLM的训练体系中完全缺失。模型可以描述如何抓取杯子，但无法执行动作，因为它对涉及的物理动力学没有任何表征。

世界模型应运而生。世界模型是一种神经网络，它学习模拟环境的物理规律——预测在给定动作下状态如何演化。由David Ha和Jürgen Schmidhuber等研究者开创（例如2018年的World Models论文），这些模型将高维观测压缩为潜在表征，并学习状态转移动力学。当与强化学习结合时，智能体可以在执行任何真实世界动作之前，先在潜在空间中“想象”数千条轨迹。这极大地降低了样本复杂度，并实现了安全探索。

新兴的混合架构大致如下：大语言模型负责高层规划与任务分解，世界模型模拟底层物理规律，强化学习策略则将潜在状态映射为电机指令。LLM输出一系列子目标（例如“将手移至杯子”、“施加2N力”），世界模型预测每个子目标的结果，RL策略根据模拟反馈微调电机指令。这种架构有时被称为具身AI的“双系统”或“系统1/系统2”架构。

一个值得关注的开源实现是Dreamer系列（由Google DeepMind的Danijar Hafner开发）。DreamerV3在GitHub上拥有超过5000颗星，它从像素中学习世界模型，并完全在想象中训练策略。它在Atari 100k基准测试和DMC（DeepMind Control）套件上取得了最先进的结果，但将这些技术迁移到复杂的现实任务中仍是一个开放挑战。

基准对比：纯LLM vs. 世界模型+RL在物理任务上的表现

| 任务 | 纯LLM（GPT-4o，零样本） | 世界模型+RL（DreamerV3） | 人类专家 |
|---|---|---|---|
| 抓取杯子（成功率） | 12% | 78% | 95% |
| 插入销钉（平均尝试次数） | 8.4 | 2.1 | 1.0 |
| 开门（成功所需时间） | 45秒 | 12秒 | 5秒 |
| 堆叠物体（倒塌前高度） | 2块 | 6块 | 10块 |

数据要点： 表格显示了一个巨大的性能鸿沟。纯LLM智能体在大多数物理任务上失败，因为它们缺乏任何动力学表征。世界模型+RL方法在简单任务上接近人类水平，但在复杂操作上仍有差距，表明潜在模拟还不够丰富。

关键玩家与案例研究

多家公司和研究团队正在积极追求这种混合架构：

- Google DeepMind：RT-2和RT-X项目将大型视觉语言模型与机器人控制相结合。RT-2利用互联网规模的文本和图像数据学习“可供性”——即物体上可能执行的动作——但在精确力控制上仍有困难。DeepMind的Gemini Robotics通过引入世界模型组件扩展了这一思路，但细节仍不明确。
- Covariant：这家伯克利衍生公司在仓库中部署AI机器人。其方法使用“机器人基础模型”（RFM-1），该模型摄取摄像头画面和关节角度，然后预测未来状态。Covariant声称在生产环境中拣选成功率达95%，但仅限于受限环境（例如已知的料箱几何形状、有限的物体类型）。
- Physical Intelligence（π）：一家由前Google Brain和OpenAI研究员（包括Sergey Levine）创立的隐形初创公司。他们正在构建一个通用物理智能模型，据称结合了大型Transformer与学习到的动力学模型。目前尚无公开产品，但已融资超过4亿美元。
- Figure AI：由OpenAI、微软和NVIDIA支持，Figure正在开发一款通用人形机器人。其方法将用于高层推理的大语言模型与通过仿真中强化学习训练的低层控制系统相结合。他们展示了令人印象深刻的行走和物体操作能力，但在非结构化环境中的可靠性仍未得到验证。

关键玩家方法对比

| 公司 | 架构 | 训练数据 | 物理任务成功率 | 计算成本（每次部署估算） |
|---|---|---|---|---|
| Google DeepMind（RT-2） | VLM + 可供性预测 | 互联网文本+图像+机器人日志 | 75%（拣选） | 200万美元 |
| Covariant（RFM-1） | Transformer + 世界模型 | 专有仓库数据 | 95%（拣选） | 50万美元 |
| Physical Intelligence | 大型Transformer + 动力学模型 | 仿真+真实机器人数据 | 不适用（产品前阶段） | 1000万美元以上（估算） |
| Figure AI | LLM + RL策略 | 仿真人形数据 | 60%（行走） | 500万美元 |

数据要点：

时间归档

延伸阅读

常见问题

这次模型发布“The Physical Gap: Why AI Agents Fail in the Real World and How Hybrid Architectures Might Save Them”的核心内容是什么？

The leap from digital cognition to embodied action has exposed a critical blind spot in current AI Agent architectures: they cannot reliably interact with the physical world. A mod…

从“Why do LLMs fail at physical tasks?”看，这个模型发布为什么重要？

The core problem is architectural: large language models are fundamentally discrete, stateless pattern matchers. They process sequences of tokens, not continuous streams of sensor data. When an agent needs to pick up a c…

围绕“What is a world model in AI?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。