技术深度解析
自进化机器人的核心技术突破,是从监督学习向开放式技能习得的范式转变。传统机器人学习依赖大规模人工标注数据集(例如Dex-Net数据集中的120万次抓取尝试)。由UC Berkeley机器人AI与学习实验室及马克斯·普朗克智能系统研究所等团队开创的新方法,结合了基于模型的强化学习与内在动机。机器人根据新颖性或技能提升自行定义奖励函数,然后探索环境以最大化这些奖励。这一理念通过DreamerV3(GitHub开源,4.2k星标)等架构实现——该架构从原始传感器数据中学习世界模型,然后通过“梦境”推演未来结果来规划行动。关键指标是“零样本迁移”——完全在仿真中训练的机器人,无需任何微调即可在现实世界中拿起陌生物体。最新基准测试显示,其在RLBench操作任务上的成功率达到73%,而此前方法仅为38%。
在基础设施方面,万卡GPU集群代表了国产AI算力的阶跃式提升。每块GPU提供约150 TFLOPS(FP16),总计达到1.5 Exaflops混合精度算力。这与NVIDIA DGX SuperPOD的性能相当,但完全采用自研芯片构建。该集群采用定制3D环面互连架构,单节点带宽达800 Gbps,将全规约延迟降至10微秒以下。这对于训练大型世界模型至关重要——此类模型需要跨数千块GPU进行同步梯度更新。该集群已用于训练一个1.5万亿参数的多模态模型,融合视觉、语言与触觉数据——这是完整世界模型的前身,该模型将能够模拟物理规律、物体恒存性与因果推理。
| 指标 | 上一代(4k GPU集群) | 当前代(10k GPU集群) | 提升倍数 |
|---|---|---|---|
| 总FP16算力(Exaflops) | 0.6 | 1.5 | 2.5x |
| 节点间带宽(Gbps) | 200 | 800 | 4x |
| 模型参数量 | 300B | 1.5T | 5x |
| 训练时间(1T token运行) | 45天 | 12天 | 3.75x |
数据要点: 万卡GPU集群不仅仅是现有模型的规模扩展,它使之前不可行的新模型类别成为可能。5倍的参数增长与3.75倍的训练加速,直接支撑起能够以足够保真度模拟现实物理的世界模型,使机器人完全在仿真中学习复杂任务。
关键参与者与案例研究
多个实体正在推动这一融合。Figure AI(非汽车公司)已在宝马制造工厂部署自进化人形机器人。其机器人通过观看视频演示学习组装零件,再通过强化学习自我修正。该公司报告称,在三个月的自主改进后,任务完成时间减少了40%。Agility Robotics则采取了不同路径,专注于通过进化策略实现双足运动。其Digit机器人无需显式编程即可在不平地形上行走并爬楼梯,其神经网络完全在仿真中训练(使用MuJoCo物理引擎,开源,8k星标)。
在基础设施方面,万卡GPU集群由国有研究机构与私营企业组成的联合体运营。首席架构师是曾任职于中国科学院的李伟博士,他设计了互连拓扑结构。该集群已被商汤科技用于训练下一代视频生成模型,可生成10分钟长的视频片段,并保持一致的物理规律与角色身份——这直接对标OpenAI的Sora,但上下文长度是其3倍。
| 公司/项目 | 聚焦领域 | 关键指标 | 是否开源? |
|---|---|---|---|
| Figure AI | 自进化人形机器人 | 任务时间减少40% | 否 |
| Agility Robotics | 双足运动 | 不平地形成功率95% | 否(仿真工具开源) |
| 商汤科技 | 世界模型训练 | 10分钟视频生成 | 否 |
| DreamerV3(GitHub) | 机器人基于模型的强化学习 | RLBench成功率73% | 是(4.2k星标) |
数据要点: 领先商业项目的闭源性质,与支撑它们的开源研究工具形成鲜明对比。这造成了一种张力:基础算法是公开的,但大规模部署所需的专有数据与算力仍被企业或国家壁垒所封锁。
行业影响与市场动态
自进化机器人市场预计将从2024年的21亿美元增长至2029年的143亿美元,年复合增长率(CAGR)达46.7%。万卡GPU集群的资本支出约为4亿美元(假设每块GPU含基础设施成本4万美元)。这是一场豪赌:世界模型的训练将成为