第一人称人类视频:如何教会机器人像人类一样学习

机器人教学的基础方法论正在被彻底重构。数十年来,主流方法依赖遥操作(人类操作员使用专用控制装置引导机器人完成任务,记录动作以供回放)或为特定环境精心设计的脚本化行为。这些方法成本高昂、难以扩展,且产生的系统脆弱,一旦超出其狭窄的训练条件便会失效。新兴的替代方案在概念上大胆简洁,执行却极为复杂:利用海量第一人称人类视频数据集训练机器人。这涉及从人类自身视角记录日常任务(如烹饪、组装家具、整理货架)的过程,通常与手部动作数据配对。其核心在于将人类数十年的物理互动经验——一种关于世界如何运作、物体如何被操纵的隐式知识——转化为可扩展的机器人训练数据。这种方法承诺打破机器人仅能执行单一、预编程任务的局限,迈向能够理解意图、适应新环境并从观察中学习的通用型机器。然而,挑战依然巨大:如何从被动观察中推断出精确的力控和触觉反馈?如何确保安全与伦理边界?尽管前路漫漫,将第一人称体验作为机器人‘教科书’的浪潮,正将具身智能的梦想推向前所未有的现实边界。

技术深度解析

这一范式的核心,是将第一人称人类体验视为一种新型训练语料库——一种多模态流,其中视觉帧是‘词元’,而人类后续动作则是‘下一个词元预测’。主导的架构方法涉及大规模序列建模,通常基于Transformer构建。模型被训练用于在给定视觉观察历史与过去动作序列的条件下,预测下一个动作(例如末端执行器位姿的增量变化或夹爪指令)。这是一种行为克隆的形式,但规模已扩展至互联网级别的人类活动数据集。

推动这一转变的关键技术创新包括:
1. 可扩展的视频数据集:由Meta AI、卡内基梅隆大学等机构主导的 Ego4D 联盟等项目,已在多个国家收集了数百名参与者超过3000小时的第一人称视频,并对手物交互、3D网格和语音对话进行了标注。这提供了必需的‘原材料’。
2. 时序建模架构:模型必须理解长周期任务。因此采用了如 动作分块Transformer(ACT)扩散策略 等架构。ACT预测未来动作序列(‘块’)而非单一步骤,从而提升了时序连贯性。受图像生成启发的扩散策略,则将随机动作序列迭代去噪为一个连贯的计划,展现出卓越的多模态处理能力(能处理完成同一任务的多种有效方式)。
3. 表征学习:一个关键的子问题是从以自我为中心的视频中学习有用的视觉表征。加州大学伯克利分校的 R3M(通过奖励的机器人表征学习) 和谷歌的 VC-1(视频与语言理解的统一模型) 等模型,利用带有语言或奖励标签的人类视频进行预训练,以创建能理解‘可抓握’、‘可打开’、‘在…后面’等可操作概念的视觉编码器。
4. 现实世界集成:从视频到物理控制的跨越涉及 仿真到实物的迁移动力学适应。斯坦福大学与谷歌的 DROID(分布式机器人交互数据集) 项目提供了一个重要的开源框架。它包含大规模的真实机器人操作数据集合,但其架构设计允许在人类视频上进行预训练。相关的GitHub仓库(`droid-sfm`)提供了构建这些数据集和模型的工具,已获超过1.2k星标,显示出快速的采用率。

一个关键的性能基准是在未见环境中执行长周期、多步骤任务的成功率。早期结果显示出了有希望但尚不完全的泛化能力。

| 训练数据来源 | 平均任务成功率(已见环境) | 平均任务成功率(未见环境) | 数据收集成本(每千小时估算) |
| :--- | :--- | :--- | :--- |
| 传统遥操作 | 92% | 45% | 50万 - 150万美元 |
| 人类第一人称视频(预训练)+ 机器人微调 | 85% | 68% | 5万 - 20万美元(视频)+ 10万美元(微调) |
| 纯仿真(物理引擎) | 99%(仿真中) | 12%(现实中) | 1万美元(算力) |

数据启示:上表揭示了核心的权衡。第一人称视频预训练在泛化到新环境的能力(未见环境成功率)与数据获取成本之间提供了更优的平衡。虽然纯遥操作在已知环境中表现出高性能,但其成本和脆弱性对于通用应用而言是难以承受的。

主要参与者与案例研究

这场利用人类视角数据的竞赛由科技巨头、雄心勃勃的初创公司和学术实验室共同引领,各自策略鲜明。

Google DeepMind 一直是先驱,其 RT(机器人Transformer) 系列便是例证。在13万次机器人演示上训练的 RT-1,展示了大规模机器人数据的威力。更具革命性的 RT-2 引入了‘视觉-语言-动作’模型,实质上是将大型视觉语言模型(如PaLI)在机器人数据上进行微调。这使得模型能够将网络规模的图像-文本知识迁移到物理控制中,从而能理解诸如‘捡起那个已灭绝的动物’这样的指令,并抓起一个塑料恐龙。他们隐含的赌注是:互联网规模的视觉理解是赋予机器人常识的最短路径。

Figure AI 与OpenAI合作,正沿着类似路径前进。尽管细节保密,但其展示的快速、流畅的操作和自然语言交互能力,强烈暗示其基础模型是在海量人类视频和语言数据上预训练,随后在专有机器人数据上微调。他们对人形机器人的专注,使得第一人称人类数据成为更自然的适配。

由Pieter Abbeel及其加州大学伯克利分校的学生创立的 Covariant,是一家专注于构建 RFM(机器人基础模型) 的纯初创公司。他们的方法强调在一个单一的神经网络中统一感知、推理和行动,该网络使用来自数百万次机器人拾放操作的数据进行训练。

常见问题

这次模型发布“How First-Person Human Video Is Creating Robots That Learn Like We Do”的核心内容是什么?

The foundational methodology for teaching robots is being fundamentally reimagined. For decades, the dominant approach relied on teleoperation—where a human operator uses specializ…

从“RT-2 vs RT-1 architecture differences explained”看,这个模型发布为什么重要?

At its core, this paradigm treats first-person human experience as a new type of training corpus—a multimodal stream where visual frames are the 'tokens' and the human's subsequent actions are the 'next-token prediction.…

围绕“how to train robot with human video dataset”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。