第一人称人类视频：如何教会机器人像人类一样学习

机器人教学的基础方法论正在被彻底重构。数十年来，主流方法依赖遥操作（人类操作员使用专用控制装置引导机器人完成任务，记录动作以供回放）或为特定环境精心设计的脚本化行为。这些方法成本高昂、难以扩展，且产生的系统脆弱，一旦超出其狭窄的训练条件便会失效。新兴的替代方案在概念上大胆简洁，执行却极为复杂：利用海量第一人称人类视频数据集训练机器人。这涉及从人类自身视角记录日常任务（如烹饪、组装家具、整理货架）的过程，通常与手部动作数据配对。其核心在于将人类数十年的物理互动经验——一种关于世界如何运作、物体如何被操纵的隐式知识——转化为可扩展的机器人训练数据。这种方法承诺打破机器人仅能执行单一、预编程任务的局限，迈向能够理解意图、适应新环境并从观察中学习的通用型机器。然而，挑战依然巨大：如何从被动观察中推断出精确的力控和触觉反馈？如何确保安全与伦理边界？尽管前路漫漫，将第一人称体验作为机器人‘教科书’的浪潮，正将具身智能的梦想推向前所未有的现实边界。

技术深度解析

这一范式的核心，是将第一人称人类体验视为一种新型训练语料库——一种多模态流，其中视觉帧是‘词元’，而人类后续动作则是‘下一个词元预测’。主导的架构方法涉及大规模序列建模，通常基于Transformer构建。模型被训练用于在给定视觉观察历史与过去动作序列的条件下，预测下一个动作（例如末端执行器位姿的增量变化或夹爪指令）。这是一种行为克隆的形式，但规模已扩展至互联网级别的人类活动数据集。

推动这一转变的关键技术创新包括：
1. 可扩展的视频数据集：由Meta AI、卡内基梅隆大学等机构主导的 Ego4D 联盟等项目，已在多个国家收集了数百名参与者超过3000小时的第一人称视频，并对手物交互、3D网格和语音对话进行了标注。这提供了必需的‘原材料’。
2. 时序建模架构：模型必须理解长周期任务。因此采用了如 动作分块Transformer（ACT） 和 扩散策略 等架构。ACT预测未来动作序列（‘块’）而非单一步骤，从而提升了时序连贯性。受图像生成启发的扩散策略，则将随机动作序列迭代去噪为一个连贯的计划，展现出卓越的多模态处理能力（能处理完成同一任务的多种有效方式）。
3. 表征学习：一个关键的子问题是从以自我为中心的视频中学习有用的视觉表征。加州大学伯克利分校的 R3M（通过奖励的机器人表征学习） 和谷歌的 VC-1（视频与语言理解的统一模型） 等模型，利用带有语言或奖励标签的人类视频进行预训练，以创建能理解‘可抓握’、‘可打开’、‘在…后面’等可操作概念的视觉编码器。
4. 现实世界集成：从视频到物理控制的跨越涉及 仿真到实物的迁移 和 动力学适应。斯坦福大学与谷歌的 DROID（分布式机器人交互数据集） 项目提供了一个重要的开源框架。它包含大规模的真实机器人操作数据集合，但其架构设计允许在人类视频上进行预训练。相关的GitHub仓库（`droid-sfm`）提供了构建这些数据集和模型的工具，已获超过1.2k星标，显示出快速的采用率。

一个关键的性能基准是在未见环境中执行长周期、多步骤任务的成功率。早期结果显示出了有希望但尚不完全的泛化能力。

| 训练数据来源 | 平均任务成功率（已见环境） | 平均任务成功率（未见环境） | 数据收集成本（每千小时估算） |
| :--- | :--- | :--- | :--- |
| 传统遥操作 | 92% | 45% | 50万 - 150万美元 |
| 人类第一人称视频（预训练）+ 机器人微调 | 85% | 68% | 5万 - 20万美元（视频）+ 10万美元（微调） |
| 纯仿真（物理引擎） | 99%（仿真中） | 12%（现实中） | 1万美元（算力） |

数据启示：上表揭示了核心的权衡。第一人称视频预训练在泛化到新环境的能力（未见环境成功率）与数据获取成本之间提供了更优的平衡。虽然纯遥操作在已知环境中表现出高性能，但其成本和脆弱性对于通用应用而言是难以承受的。

主要参与者与案例研究

这场利用人类视角数据的竞赛由科技巨头、雄心勃勃的初创公司和学术实验室共同引领，各自策略鲜明。

Google DeepMind 一直是先驱，其 RT（机器人Transformer） 系列便是例证。在13万次机器人演示上训练的 RT-1，展示了大规模机器人数据的威力。更具革命性的 RT-2 引入了‘视觉-语言-动作’模型，实质上是将大型视觉语言模型（如PaLI）在机器人数据上进行微调。这使得模型能够将网络规模的图像-文本知识迁移到物理控制中，从而能理解诸如‘捡起那个已灭绝的动物’这样的指令，并抓起一个塑料恐龙。他们隐含的赌注是：互联网规模的视觉理解是赋予机器人常识的最短路径。

Figure AI 与OpenAI合作，正沿着类似路径前进。尽管细节保密，但其展示的快速、流畅的操作和自然语言交互能力，强烈暗示其基础模型是在海量人类视频和语言数据上预训练，随后在专有机器人数据上微调。他们对人形机器人的专注，使得第一人称人类数据成为更自然的适配。

由Pieter Abbeel及其加州大学伯克利分校的学生创立的 Covariant，是一家专注于构建 RFM（机器人基础模型） 的纯初创公司。他们的方法强调在一个单一的神经网络中统一感知、推理和行动，该网络使用来自数百万次机器人拾放操作的数据进行训练。

常见问题

这次模型发布“How First-Person Human Video Is Creating Robots That Learn Like We Do”的核心内容是什么？

The foundational methodology for teaching robots is being fundamentally reimagined. For decades, the dominant approach relied on teleoperation—where a human operator uses specializ…

从“RT-2 vs RT-1 architecture differences explained”看，这个模型发布为什么重要？

At its core, this paradigm treats first-person human experience as a new type of training corpus—a multimodal stream where visual frames are the 'tokens' and the human's subsequent actions are the 'next-token prediction.…

围绕“how to train robot with human video dataset”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。