技术深度解析
这一范式的核心,是将第一人称人类体验视为一种新型训练语料库——一种多模态流,其中视觉帧是‘词元’,而人类后续动作则是‘下一个词元预测’。主导的架构方法涉及大规模序列建模,通常基于Transformer构建。模型被训练用于在给定视觉观察历史与过去动作序列的条件下,预测下一个动作(例如末端执行器位姿的增量变化或夹爪指令)。这是一种行为克隆的形式,但规模已扩展至互联网级别的人类活动数据集。
推动这一转变的关键技术创新包括:
1. 可扩展的视频数据集:由Meta AI、卡内基梅隆大学等机构主导的 Ego4D 联盟等项目,已在多个国家收集了数百名参与者超过3000小时的第一人称视频,并对手物交互、3D网格和语音对话进行了标注。这提供了必需的‘原材料’。
2. 时序建模架构:模型必须理解长周期任务。因此采用了如 动作分块Transformer(ACT) 和 扩散策略 等架构。ACT预测未来动作序列(‘块’)而非单一步骤,从而提升了时序连贯性。受图像生成启发的扩散策略,则将随机动作序列迭代去噪为一个连贯的计划,展现出卓越的多模态处理能力(能处理完成同一任务的多种有效方式)。
3. 表征学习:一个关键的子问题是从以自我为中心的视频中学习有用的视觉表征。加州大学伯克利分校的 R3M(通过奖励的机器人表征学习) 和谷歌的 VC-1(视频与语言理解的统一模型) 等模型,利用带有语言或奖励标签的人类视频进行预训练,以创建能理解‘可抓握’、‘可打开’、‘在…后面’等可操作概念的视觉编码器。
4. 现实世界集成:从视频到物理控制的跨越涉及 仿真到实物的迁移 和 动力学适应。斯坦福大学与谷歌的 DROID(分布式机器人交互数据集) 项目提供了一个重要的开源框架。它包含大规模的真实机器人操作数据集合,但其架构设计允许在人类视频上进行预训练。相关的GitHub仓库(`droid-sfm`)提供了构建这些数据集和模型的工具,已获超过1.2k星标,显示出快速的采用率。
一个关键的性能基准是在未见环境中执行长周期、多步骤任务的成功率。早期结果显示出了有希望但尚不完全的泛化能力。
| 训练数据来源 | 平均任务成功率(已见环境) | 平均任务成功率(未见环境) | 数据收集成本(每千小时估算) |
| :--- | :--- | :--- | :--- |
| 传统遥操作 | 92% | 45% | 50万 - 150万美元 |
| 人类第一人称视频(预训练)+ 机器人微调 | 85% | 68% | 5万 - 20万美元(视频)+ 10万美元(微调) |
| 纯仿真(物理引擎) | 99%(仿真中) | 12%(现实中) | 1万美元(算力) |
数据启示:上表揭示了核心的权衡。第一人称视频预训练在泛化到新环境的能力(未见环境成功率)与数据获取成本之间提供了更优的平衡。虽然纯遥操作在已知环境中表现出高性能,但其成本和脆弱性对于通用应用而言是难以承受的。
主要参与者与案例研究
这场利用人类视角数据的竞赛由科技巨头、雄心勃勃的初创公司和学术实验室共同引领,各自策略鲜明。
Google DeepMind 一直是先驱,其 RT(机器人Transformer) 系列便是例证。在13万次机器人演示上训练的 RT-1,展示了大规模机器人数据的威力。更具革命性的 RT-2 引入了‘视觉-语言-动作’模型,实质上是将大型视觉语言模型(如PaLI)在机器人数据上进行微调。这使得模型能够将网络规模的图像-文本知识迁移到物理控制中,从而能理解诸如‘捡起那个已灭绝的动物’这样的指令,并抓起一个塑料恐龙。他们隐含的赌注是:互联网规模的视觉理解是赋予机器人常识的最短路径。
Figure AI 与OpenAI合作,正沿着类似路径前进。尽管细节保密,但其展示的快速、流畅的操作和自然语言交互能力,强烈暗示其基础模型是在海量人类视频和语言数据上预训练,随后在专有机器人数据上微调。他们对人形机器人的专注,使得第一人称人类数据成为更自然的适配。
由Pieter Abbeel及其加州大学伯克利分校的学生创立的 Covariant,是一家专注于构建 RFM(机器人基础模型) 的纯初创公司。他们的方法强调在一个单一的神经网络中统一感知、推理和行动,该网络使用来自数百万次机器人拾放操作的数据进行训练。