技术深度解析
从屏幕AI到物理世界AI的转变,并非现有能力的简单延伸,而是需要一套根本不同的技术栈。核心挑战在于弥合离散、符号化的文本世界与连续、嘈杂、高维的物理世界之间的鸿沟。
架构与算法
传统LLM基于token序列运作,对三维空间、材料属性或因果关系没有内在理解。要在物理世界中运行,模型必须整合多种模态——视觉、触觉、本体感知——并学会输出连续的控制信号,而非仅仅是文本。
一个领先的方法是视觉-语言-动作(VLA)模型,以Google DeepMind的RT-2和开源项目OpenVLA(70亿参数,GitHub星标超5万)为代表。这些模型接收摄像头图像和自然语言指令(例如“拿起红色杯子”),直接输出电机控制指令。其关键创新在于,在机器人演示数据上对预训练的视觉-语言模型进行微调,从而将语义知识有效迁移到物理动作中。
然而,VLA面临一个关键瓶颈:数据稀缺。文本数据浩如烟海,但高质量的机器人演示数据收集成本高昂且速度缓慢。这催生了对仿真到现实迁移的研究。英伟达的Isaac Sim和开源物理引擎MuJoCo被用于生成海量合成训练数据集。挑战在于,在仿真中训练的模型往往因“现实鸿沟”——摩擦力、光照和物体动力学的差异——而在真实世界中失败。领域随机化(在训练中改变仿真参数)等技术已成为标准做法,但鸿沟依然是一大障碍。
物理性能基准测试
MMLU等标准LLM基准在此已不适用。评估物理智能的新基准正在涌现:
| 基准 | 聚焦领域 | 关键指标 | 示例任务 |
|---|---|---|---|
| Meta-World | 多任务机器人操作 | 50项任务的成功率 | 开门、推方块、抓取与放置 |
| CALVIN | 长时域语言条件任务 | 任务完成率 | “煮咖啡”(5个以上动作的序列) |
| Habitat 3.0 | 具身导航与交互 | 按路径长度加权的成功率 | 找到一个人并递给他一个物体 |
| Waymo Open Motion Dataset | 自动驾驶规划 | 位移误差、碰撞率 | 在复杂交叉口预测车辆轨迹 |
数据要点: 当前最先进的模型在Meta-World的50项任务上能达到约60-70%的成功率,但在CALVIN的长时域任务上降至30%以下。这暴露了顺序推理和记忆方面的根本弱点——模型可以拿起杯子,但会忘记之后需要将其放入水槽。
另一个关键技术领域是因果推理。LLM擅长相关性,但难以处理因果关系。一个训练来按下按钮以点亮灯光的机器人,可能学会按下按钮是原因,但如果按钮被移动,它就会失败。MIT CSAIL的研究人员提出了因果世界模型,该模型显式学习环境的底层动力学,从而实现对新配置的零样本适应。这是一个活跃领域,像Causal-Imitation(1.2K星标)这样的仓库在从交互数据中学习因果图方面展示了有希望的结果。
关键玩家与案例研究
物理AI的竞赛不仅是研究问题,更是一个战略路径各异的竞争战场。
科技巨头
| 公司 | 方法 | 关键产品/平台 | 战略 |
|---|---|---|---|
| 特斯拉 | 垂直整合 | Optimus人形机器人、全自动驾驶 | 基于海量真实车队数据的端到端神经网络;掌控硬件和软件 |
| Google DeepMind | 基础模型+机器人 | RT-2、AutoRT、Gemini Robotics | 利用大规模多模态模型实现泛化;开源研究以吸引人才 |
| 英伟达 | 基础设施提供商 | Isaac Sim、Jetson Orin、GR00T | 出售“铲子和镐”——为整个行业提供仿真、硬件和开发者工具 |
| OpenAI | 战略投资 | 投资Figure AI、1X Technologies | 押注外部机器人公司,同时内部专注于模型开发 |
案例研究:Figure AI与OpenAI
由OpenAI、微软和英伟达支持的Figure AI,展示了将LLM与人形机器人结合的最显著进展。其Figure 01机器人由OpenAI模型驱动,可以在执行递苹果等任务的同时进行完整对话。关键洞察:LLM负责高层推理和语言理解,而一个独立的底层策略网络负责精确的电机控制。这种模块化方法目前最为实用,但会引入延迟和协调问题。