技术深度解析
物理AI之争,本质上是三个技术层面的争夺:作为机器人大脑的基础模型、训练大脑的仿真平台,以及连接仿真与现实的真实世界数据管道。
基础模型架构: OpenAI正在利用其GPT系列架构,针对多模态传感器输入(视觉、触觉、本体感知)和连续动作输出进行适配。其核心创新在于一种基于Transformer的策略,该策略直接摄取历史观测数据并输出关节扭矩或末端执行器位姿,绕过了传统的分层规划。这种端到端的方法,类似于RT-2论文(Robotic Transformer 2)中描述的架构,使模型能够将来自网络规模文本和图像数据的语义知识迁移到物理任务中。例如,一个在数百万个YouTube人类开门视频上训练的模型,可以泛化到打开一个具有不同把手设计的新橱柜。这里的关键指标是零样本泛化:即在无需针对特定任务进行微调的情况下执行任务的能力。OpenAI内部测试的早期基准显示,与之前最先进的模型(如RT-2)相比,其在未见物体上的零样本成功率提升了40%。
仿真平台: 英伟达的Omniverse是机器人领域最先进的物理仿真环境。它使用PhysX 5.0进行GPU加速的刚体和软体动力学模拟,并与Isaac Sim集成用于强化学习训练。该平台支持域随机化——在训练过程中自动改变光照、纹理、摩擦系数和物体形状——以弥合仿真到现实的差距。一个关键的技术细节是并行仿真:Omniverse可以在单个DGX集群上同时运行数千个仿真环境,每小时生成数百万个训练步骤。这比受物理时间限制的真实世界训练快数个数量级。英伟达已开源了Isaac Gym仓库(现为Isaac Sim的一部分),该仓库在GitHub上已获得超过12,000颗星,并且是腿部运动仿真到现实迁移研究的实际标准。
真实世界数据闭环: 特斯拉的优势在于其庞大的车辆车队,这些车辆已经在收集海量的真实驾驶数据。对于Optimus,特斯拉正在部署类似的策略:工厂或仓库中的每个机器人都生成遥测数据——摄像头画面、力传感器读数、电机电流以及任务成功/失败日志。这些数据通过模仿学习和基于人类反馈的强化学习(RLHF)来微调机器人的策略。其规模是巨大的:特斯拉预计,到2025年底,其部署的Optimus单元每月将生成超过1PB的任务特定数据。这些数据随后用于训练一个世界模型,该模型预测动作的后果,使机器人能够提前规划多个步骤。
| 层面 | OpenAI | 英伟达 | 特斯拉 |
|---|---|---|---|
| 基础模型 | 基于GPT-4o的多模态策略 | Cosmos(世界模型)+ Isaac Lab | 专有神经网络(Tesla Dojo) |
| 仿真平台 | 内部(未公开) | Omniverse + Isaac Sim | 定制仿真(基于Unreal Engine) |
| 真实世界数据 | 有限(研究合作伙伴) | 合成数据生成 | 来自Optimus车队的每月1+ PB |
| 硬件 | 定制(可能与Figure成立合资公司) | Jetson AGX Orin + Thor | 定制执行器、芯片、传感器 |
| 训练算力 | Azure集群 | DGX SuperPODs | Dojo超级计算机 |
数据要点: 该表格揭示了策略上的鲜明对比。英伟达主导了仿真层,提供了最成熟和可扩展的平台。特斯拉在真实世界数据量上领先,这对于弥合仿真到现实的差距至关重要。OpenAI拥有最强大的基础模型,但在仿真和大规模数据方面存在短板——它正试图通过合作伙伴关系(例如与Figure Robotics)和潜在收购来填补这一空白。
关键玩家与案例研究
OpenAI押注通用大脑: OpenAI的机器人项目在2021年关闭其机器人团队后重启,目前专注于将其基础模型授权给硬件合作伙伴。最突出的例子是与Figure Robotics的合作,后者在南卡罗来纳州斯帕坦堡的宝马工厂部署了Figure 02人形机器人。这些机器人使用OpenAI的视觉-语言-动作模型来解释工人的自然语言指令(例如,“将底盘移动到4号工位”),并以最少的预先训练执行任务。据报道,首次尝试的成功率为85%,而Figure之前内部模型的成功率为60%。然而,从指令到动作的延迟为500毫秒,这对于高速装配线来说太慢了。OpenAI据称正在开发一个在定制ASIC上运行的蒸馏模型,以将延迟降低到100毫秒以下。