技术深度解析
核心问题在于架构:大语言模型本质上是离散的、无状态的模式匹配器。它们处理的是token序列,而非连续的传感器数据流。当一个智能体需要拿起一个杯子时,实时反馈回路——力度、滑移检测、角速度——在LLM的训练体系中完全缺失。模型可以描述如何抓取杯子,但无法执行动作,因为它对涉及的物理动力学没有任何表征。
世界模型应运而生。世界模型是一种神经网络,它学习模拟环境的物理规律——预测在给定动作下状态如何演化。由David Ha和Jürgen Schmidhuber等研究者开创(例如2018年的World Models论文),这些模型将高维观测压缩为潜在表征,并学习状态转移动力学。当与强化学习结合时,智能体可以在执行任何真实世界动作之前,先在潜在空间中“想象”数千条轨迹。这极大地降低了样本复杂度,并实现了安全探索。
新兴的混合架构大致如下:大语言模型负责高层规划与任务分解,世界模型模拟底层物理规律,强化学习策略则将潜在状态映射为电机指令。LLM输出一系列子目标(例如“将手移至杯子”、“施加2N力”),世界模型预测每个子目标的结果,RL策略根据模拟反馈微调电机指令。这种架构有时被称为具身AI的“双系统”或“系统1/系统2”架构。
一个值得关注的开源实现是Dreamer系列(由Google DeepMind的Danijar Hafner开发)。DreamerV3在GitHub上拥有超过5000颗星,它从像素中学习世界模型,并完全在想象中训练策略。它在Atari 100k基准测试和DMC(DeepMind Control)套件上取得了最先进的结果,但将这些技术迁移到复杂的现实任务中仍是一个开放挑战。
基准对比:纯LLM vs. 世界模型+RL在物理任务上的表现
| 任务 | 纯LLM(GPT-4o,零样本) | 世界模型+RL(DreamerV3) | 人类专家 |
|---|---|---|---|
| 抓取杯子(成功率) | 12% | 78% | 95% |
| 插入销钉(平均尝试次数) | 8.4 | 2.1 | 1.0 |
| 开门(成功所需时间) | 45秒 | 12秒 | 5秒 |
| 堆叠物体(倒塌前高度) | 2块 | 6块 | 10块 |
数据要点: 表格显示了一个巨大的性能鸿沟。纯LLM智能体在大多数物理任务上失败,因为它们缺乏任何动力学表征。世界模型+RL方法在简单任务上接近人类水平,但在复杂操作上仍有差距,表明潜在模拟还不够丰富。
关键玩家与案例研究
多家公司和研究团队正在积极追求这种混合架构:
- Google DeepMind:RT-2和RT-X项目将大型视觉语言模型与机器人控制相结合。RT-2利用互联网规模的文本和图像数据学习“可供性”——即物体上可能执行的动作——但在精确力控制上仍有困难。DeepMind的Gemini Robotics通过引入世界模型组件扩展了这一思路,但细节仍不明确。
- Covariant:这家伯克利衍生公司在仓库中部署AI机器人。其方法使用“机器人基础模型”(RFM-1),该模型摄取摄像头画面和关节角度,然后预测未来状态。Covariant声称在生产环境中拣选成功率达95%,但仅限于受限环境(例如已知的料箱几何形状、有限的物体类型)。
- Physical Intelligence(π):一家由前Google Brain和OpenAI研究员(包括Sergey Levine)创立的隐形初创公司。他们正在构建一个通用物理智能模型,据称结合了大型Transformer与学习到的动力学模型。目前尚无公开产品,但已融资超过4亿美元。
- Figure AI:由OpenAI、微软和NVIDIA支持,Figure正在开发一款通用人形机器人。其方法将用于高层推理的大语言模型与通过仿真中强化学习训练的低层控制系统相结合。他们展示了令人印象深刻的行走和物体操作能力,但在非结构化环境中的可靠性仍未得到验证。
关键玩家方法对比
| 公司 | 架构 | 训练数据 | 物理任务成功率 | 计算成本(每次部署估算) |
|---|---|---|---|---|
| Google DeepMind(RT-2) | VLM + 可供性预测 | 互联网文本+图像+机器人日志 | 75%(拣选) | 200万美元 |
| Covariant(RFM-1) | Transformer + 世界模型 | 专有仓库数据 | 95%(拣选) | 50万美元 |
| Physical Intelligence | 大型Transformer + 动力学模型 | 仿真+真实机器人数据 | 不适用(产品前阶段) | 1000万美元以上(估算) |
| Figure AI | LLM + RL策略 | 仿真人形数据 | 60%(行走) | 500万美元 |
数据要点: