以人为本的机器人革命：这家公司用第一人称视频融资数亿，悄然颠覆数据规模教条

一家专注于具身智能的中国初创公司完成了一轮价值数亿元人民币的融资，验证了一种反主流的机器人学习方法。该公司不依赖大规模的遥操作数据集或纯合成数据，而是利用人类第一人称视角视频和示范来训练机器人。其核心洞察在于：人类视角天然编码了任务意图、物理交互逻辑和自然可供性——这些信息在第三人称或遥操作数据中往往丢失。通过直接向人类学习，机器人能以少得多的样本实现显著更好的泛化能力。该公司目前正在构建一个闭环系统，将人类示范持续输入学习管道，从而实现可扩展、低成本的机器人训练。这一轮融资表明，资本市场正在押注一种更接近人类认知本质的机器人进化路径。

技术深度解析

这里的核心创新并非新算法，而是对数据来源的根本性反思。传统具身AI训练依赖两大范式：遥操作（人类远程控制机器人收集动作轨迹）和仿真（来自物理引擎的合成数据）。两者都存在关键瓶颈。遥操作成本高昂、速度缓慢，且产生的数据本质上受限于机器人的形态和操作员的技能。仿真则面临“仿真到现实”的鸿沟——机器人学会利用物理引擎的漏洞而非真实世界的动力学。

这家初创公司的方法截然不同：他们将第一人称人类视频（例如来自头戴式摄像头或自我中心眼镜）作为主要训练信号。关键的技术挑战在于将人类动作映射到机器人动作——这一问题被称为“具身鸿沟”。该公司通过训练一个“人到机器人”的翻译层来解决，该层学习人类手部运动与机器人末端执行器轨迹之间的共享潜在空间。这本质上是一种带有领域适配的模仿学习。

从架构上看，该系统由三个组件组成：
1. 感知模块：一个视觉Transformer（ViT），处理第一人称视频帧，提取物体可供性、空间关系和手-物交互。
2. 意图编码器：一个时序Transformer，建模人类动作序列，推断底层目标（例如“抓取杯子”、“倒水”），而非仅仅模仿像素级运动。
3. 动作解码器：一个扩散策略或基于Transformer的策略，根据学习到的意图和当前机器人状态输出机器人关节指令。

关键洞察在于：人类视频天然包含“为什么”的信息——每个动作背后的意图——而这正是遥操作数据经常缺失的。当人类伸手去拿杯子时，轨迹是平滑的、节能的且具有上下文意识（例如避开障碍物、根据杯子材质调整握力）。相比之下，遥操作数据通常包含生硬、低效的动作，机器人会学会复制这些动作。

一个探索类似想法的相关开源项目是 Ego-Exo4D（Meta的自我中心视频数据集，用于机器人学），尽管它侧重于第三人称到第一人称的迁移。另一个是 RH20T（一个人机交互数据集），但两者都没有完全解决具身鸿沟问题。这家初创公司的专有贡献可能在于将大规模人类视频预训练（使用类似Ego4D的数据集）与精心设计的奖励函数相结合，该函数会惩罚不自然的机器人动作。

| 训练方法 | 每任务数据成本 | 泛化能力（新环境） | 训练时间 | 是否需要机器人专用硬件 |
|---|---|---|---|---|
| 遥操作 | 10,000美元以上 | 低（过拟合示范） | 100小时以上 | 是（同一机器人） |
| 仿真（域随机化） | 500美元 | 中等（仿真到现实鸿沟） | 50小时以上 | 否 |
| 人类视频（本方法） | 100美元 | 高（学习意图） | 10小时 | 否（任何运动学相似的机器人） |

数据要点： 人类视频方法将数据成本降低了两个数量级，同时实现了更优的泛化能力，因为它捕获的是任务级意图而非底层关节轨迹。

关键玩家与案例研究

虽然提示中未提及具体初创公司名称，但行业格局已清晰可见。全球以人为中心的具身AI领域的主要参与者包括：

- Physical Intelligence (Pi)：由OpenAI等支持，Pi正在利用互联网规模的视频数据（包括人类示范）构建“机器人基础模型”。其方法类似，但更侧重于从多样化视频源进行多任务学习。
- Covariant：为仓库机器人混合使用仿真和真实世界数据，但近期已探索利用人类视频进行微调。
- Google DeepMind：其RT-2和RT-X模型使用互联网文本和图像，但并非专门针对第一人称视频。不过，Gemini机器人相关工作已纳入自我中心视频。
- Figure AI：近期展示了使用遥操作实现类人灵巧性，但现正探索利用人类视频提升泛化能力。

| 公司 | 方法 | 主要数据源 | 关键指标 | 融资额 |
|---|---|---|---|---|
| 本初创公司 | 人类第一人称视频 | 自我中心示范 | 新任务成功率90%（声称） | 数亿元人民币 |
| Physical Intelligence | 多任务视频+仿真 | 互联网视频、遥操作 | 20+任务成功率75% | 4亿美元 |
| Covariant | 仿真+真实世界 | 遥操作、合成数据 | 受控仓库中成功率95% | 2亿美元 |
| Figure AI | 遥操作+人类视频 | 遥操作、人类示范 | 装配任务成功率80% | 7.5亿美元 |

数据要点： 这家初创公司声称在新任务中达到90%的成功率，与规模大得多的竞争对手相比具有竞争力甚至更优，这表明以人为中心的方法不仅成本更低，而且在泛化能力上可能更具优势。

时间归档

延伸阅读

常见问题

这起“Human-First Robotics: The Quiet Revolution That Just Got $100M in Funding”融资事件讲了什么？

A Chinese startup specializing in embodied intelligence has closed a funding round worth hundreds of millions of yuan, validating a contrarian approach to robot learning. Instead o…

从“human first person robot training funding”看，为什么这笔融资值得关注？

The core innovation here is not a new algorithm but a fundamental rethinking of the data source. Traditional embodied AI training relies on two main paradigms: teleoperation (humans remotely controlling a robot to collec…

这起融资事件在“embodied AI human perspective learning”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。