以人为本的机器人革命:这家公司用第一人称视频融资数亿,悄然颠覆数据规模教条

May 2026
embodied AIworld model归档:May 2026
一家中国具身智能初创公司凭借一种激进的数据策略获得数亿元融资:放弃海量遥操作数据,转而用人类第一人称视频训练机器人。这标志着机器人学习正悄然转向一条更高效、更人性化的路径。

一家专注于具身智能的中国初创公司完成了一轮价值数亿元人民币的融资,验证了一种反主流的机器人学习方法。该公司不依赖大规模的遥操作数据集或纯合成数据,而是利用人类第一人称视角视频和示范来训练机器人。其核心洞察在于:人类视角天然编码了任务意图、物理交互逻辑和自然可供性——这些信息在第三人称或遥操作数据中往往丢失。通过直接向人类学习,机器人能以少得多的样本实现显著更好的泛化能力。该公司目前正在构建一个闭环系统,将人类示范持续输入学习管道,从而实现可扩展、低成本的机器人训练。这一轮融资表明,资本市场正在押注一种更接近人类认知本质的机器人进化路径。

技术深度解析

这里的核心创新并非新算法,而是对数据来源的根本性反思。传统具身AI训练依赖两大范式:遥操作(人类远程控制机器人收集动作轨迹)和仿真(来自物理引擎的合成数据)。两者都存在关键瓶颈。遥操作成本高昂、速度缓慢,且产生的数据本质上受限于机器人的形态和操作员的技能。仿真则面临“仿真到现实”的鸿沟——机器人学会利用物理引擎的漏洞而非真实世界的动力学。

这家初创公司的方法截然不同:他们将第一人称人类视频(例如来自头戴式摄像头或自我中心眼镜)作为主要训练信号。关键的技术挑战在于将人类动作映射到机器人动作——这一问题被称为“具身鸿沟”。该公司通过训练一个“人到机器人”的翻译层来解决,该层学习人类手部运动与机器人末端执行器轨迹之间的共享潜在空间。这本质上是一种带有领域适配的模仿学习。

从架构上看,该系统由三个组件组成:
1. 感知模块:一个视觉Transformer(ViT),处理第一人称视频帧,提取物体可供性、空间关系和手-物交互。
2. 意图编码器:一个时序Transformer,建模人类动作序列,推断底层目标(例如“抓取杯子”、“倒水”),而非仅仅模仿像素级运动。
3. 动作解码器:一个扩散策略或基于Transformer的策略,根据学习到的意图和当前机器人状态输出机器人关节指令。

关键洞察在于:人类视频天然包含“为什么”的信息——每个动作背后的意图——而这正是遥操作数据经常缺失的。当人类伸手去拿杯子时,轨迹是平滑的、节能的且具有上下文意识(例如避开障碍物、根据杯子材质调整握力)。相比之下,遥操作数据通常包含生硬、低效的动作,机器人会学会复制这些动作。

一个探索类似想法的相关开源项目是 Ego-Exo4D(Meta的自我中心视频数据集,用于机器人学),尽管它侧重于第三人称到第一人称的迁移。另一个是 RH20T(一个人机交互数据集),但两者都没有完全解决具身鸿沟问题。这家初创公司的专有贡献可能在于将大规模人类视频预训练(使用类似Ego4D的数据集)与精心设计的奖励函数相结合,该函数会惩罚不自然的机器人动作。

| 训练方法 | 每任务数据成本 | 泛化能力(新环境) | 训练时间 | 是否需要机器人专用硬件 |
|---|---|---|---|---|
| 遥操作 | 10,000美元以上 | 低(过拟合示范) | 100小时以上 | 是(同一机器人) |
| 仿真(域随机化) | 500美元 | 中等(仿真到现实鸿沟) | 50小时以上 | 否 |
| 人类视频(本方法) | 100美元 | 高(学习意图) | 10小时 | 否(任何运动学相似的机器人) |

数据要点: 人类视频方法将数据成本降低了两个数量级,同时实现了更优的泛化能力,因为它捕获的是任务级意图而非底层关节轨迹。

关键玩家与案例研究

虽然提示中未提及具体初创公司名称,但行业格局已清晰可见。全球以人为中心的具身AI领域的主要参与者包括:

- Physical Intelligence (Pi):由OpenAI等支持,Pi正在利用互联网规模的视频数据(包括人类示范)构建“机器人基础模型”。其方法类似,但更侧重于从多样化视频源进行多任务学习。
- Covariant:为仓库机器人混合使用仿真和真实世界数据,但近期已探索利用人类视频进行微调。
- Google DeepMind:其RT-2和RT-X模型使用互联网文本和图像,但并非专门针对第一人称视频。不过,Gemini机器人相关工作已纳入自我中心视频。
- Figure AI:近期展示了使用遥操作实现类人灵巧性,但现正探索利用人类视频提升泛化能力。

| 公司 | 方法 | 主要数据源 | 关键指标 | 融资额 |
|---|---|---|---|---|
| 本初创公司 | 人类第一人称视频 | 自我中心示范 | 新任务成功率90%(声称) | 数亿元人民币 |
| Physical Intelligence | 多任务视频+仿真 | 互联网视频、遥操作 | 20+任务成功率75% | 4亿美元 |
| Covariant | 仿真+真实世界 | 遥操作、合成数据 | 受控仓库中成功率95% | 2亿美元 |
| Figure AI | 遥操作+人类视频 | 遥操作、人类示范 | 装配任务成功率80% | 7.5亿美元 |

数据要点: 这家初创公司声称在新任务中达到90%的成功率,与规模大得多的竞争对手相比具有竞争力甚至更优,这表明以人为中心的方法不仅成本更低,而且在泛化能力上可能更具优势。

相关专题

embodied AI131 篇相关文章world model42 篇相关文章

时间归档

May 20261611 篇已发布文章

延伸阅读

开源仿真框架突破具身AI训练瓶颈:高保真渲染与大规模并行兼得一款全新开源仿真框架通过统一高保真渲染与大规模并行吞吐,彻底打破了具身AI训练中的瓶颈。这一架构创新消除了视觉真实感与训练规模之间的痛苦取舍,让工业级机器人学习变得人人可及。生数科技认领神秘模型:视频生成与具身智能统一于同一系统生数科技公开认领此前匿名登顶的模型,并展示了将视频生成与具身智能融合的工业级演示。该系统无需重新训练,即可在从机械臂到移动底盘的不同物理平台上执行复杂的长周期任务,标志着向真正世界模型迈出了关键一步。物理优先世界模型与VLA闭环:如何破解具身AI的零样本泛化危机从对话AI迈向能在物理世界行动的智能体,其道路长期被‘零样本泛化’这一根本性限制所阻断。如今,一种以物理优先世界模型为核心、结合视觉-语言-行动闭环演化的新范式正在崛起,它通过创造无限扩展的合成训练场,为具身智能的真正学习铺平了道路。DexWorldModel登顶:AI竞赛从虚拟预测转向物理控制的标志性拐点世界模型基准榜单的一次更迭,揭示了人工智能领域的根本性转向。Crossdim AI的DexWorldModel并非凭借生成更逼真的视频帧夺冠,而是通过展示在指导物理机器人行动方面的卓越性能登顶。这标志着AI能力的真正试金石,正从虚拟预测决定

常见问题

这起“Human-First Robotics: The Quiet Revolution That Just Got $100M in Funding”融资事件讲了什么?

A Chinese startup specializing in embodied intelligence has closed a funding round worth hundreds of millions of yuan, validating a contrarian approach to robot learning. Instead o…

从“human first person robot training funding”看,为什么这笔融资值得关注?

The core innovation here is not a new algorithm but a fundamental rethinking of the data source. Traditional embodied AI training relies on two main paradigms: teleoperation (humans remotely controlling a robot to collec…

这起融资事件在“embodied AI human perspective learning”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。