具身智能数据战争：三家中国巨头如何重写物理智能的规则

一场悄然但深刻的范式转移正在具身智能领域展开。表面上的数据军备竞赛叙事掩盖了一个更深层的真相：真正的战场现在变成了数据基础设施本身的架构。群核科技选择建造自己的“数据道场”，利用合成数据引擎大规模生产机器人的交互训练场景。这直接解决了真实世界数据稀缺的根本瓶颈，但合成数据有其固有天花板——它永远无法完全复刻物理现实的随机性和复杂性。百度则走了不同的道路，专注于铺设数据管道——从采集、清洗到标注和反馈循环。这种“数据即服务”的思维优先考虑流动效率而非静态库存，然而即使是最纯净的管道也无法弥补数据本身的不足。京东采取了最数据密集型但也是最昂贵的策略：在其“亚洲一号”智能仓库中部署了超过2000台自主移动机器人，每台每天产生约500GB传感器数据。关键洞察在于，京东不仅收集成功轨迹，还明确记录失败案例——掉落的包裹、湿滑表面上的抓取失败、临时障碍物导致的导航错误——这些都被标记、存储并用于训练鲁棒的恢复策略。这场战争的核心意义在于：具身智能的未来不再取决于算法创新，而是取决于谁能构建最有效的数据基础设施来弥合模拟与现实之间的鸿沟。

技术深度解析

从以算法为中心到以数据为中心的具身智能转变，是由一个硬核工程现实驱动的：推动大语言模型的缩放定律并不能直接迁移到物理世界。在自然语言处理中，更多的token几乎总是带来更好的性能。在机器人学中，如果数据不够多样化、不够接地气、不能代表目标部署分布，更多的数据实际上可能有害。

群核科技的合成数据工厂

群核科技以其室内设计平台Coohom而闻名，它重新利用了其3D场景生成引擎，为具身智能体创建合成训练环境。其方法建立在模块化管道之上：一个场景合成器生成数百万个独特的室内布局，具有随机化的家具摆放、光照条件和物体几何形状。每个场景都自动标注了地面实况物理属性——质量、摩擦力、关节限制——这些属性几乎不可能从真实世界扫描中获得。生成的数据集随后被输入到域随机化强化学习循环中。

这里的关键技术创新是使用“场景语法”——一种概率上下文无关语法，定义了物体之间有效的空间关系。这确保了合成场景虽然是程序化生成的，但在物理上仍然是合理的。桌子不能悬浮在半空中；椅子必须放在桌子附近，而不是墙里。与天真的随机放置相比，这种语法极大地缩小了“模拟到现实的差距”。

然而，根本限制依然存在：合成数据缺乏真实世界物理的“长尾”。真实的仓库地板可能有一滩油渍、一个略微变形的纸板箱，或者由灰尘引起的传感器故障。这些几乎不可能在规模上通过合成方式建模。开源社区已经探索了替代方案；例如，Isaac Gym仓库（NVIDIA，12k+星标）提供了一个用于强化学习的物理模拟环境，但它仍然需要大量手动调优才能匹配真实世界的动力学。

百度的数据管道架构

百度的策略更具基础设施性。他们不是生成数据，而是构建数据流的“管道系统”。其内部称为“Apollo Data Lake”（从其自动驾驶管道演变而来）的系统由四个阶段组成：数据摄取、数据策管、数据标注和反馈循环。数据摄取层支持异构数据源——LiDAR点云、RGB-D摄像头、触觉传感器和本体感受关节编码器。数据策管层使用一个经过学习的“数据质量评分器”来过滤掉低价值或冗余样本，根据内部基准测试，这可将存储成本降低约40%。数据标注层采用混合人机回环系统，其中80%的简单标签是自动化的，20%的复杂边缘案例则交给人类标注员。反馈循环是最关键的：当部署的机器人在某个任务上失败时，失败事件会被自动标记、上传，并用于重新加权训练分布。

| 数据管道阶段 | 百度的做法 | 行业平均水平（估计） | 关键指标 |
|---|---|---|---|
| 数据摄取 | 多模态（LiDAR、RGB-D、触觉） | 单模态（仅视觉） | 3倍数据多样性 |
| 数据策管 | 学习型质量评分器 | 基于规则的过滤 | 40%存储缩减 |
| 数据标注 | 80%自动化，20%人机回环 | 50/50比例 | 2倍吞吐量 |
| 反馈循环 | 自动化失败标记 | 人工审查 | 10倍更快的迭代速度 |

数据要点： 百度的管道是为效率而非数量而设计的。自动化失败标记带来的10倍更快的迭代周期是一个决定性优势——这意味着他们的模型可以在数小时内（而非数天内）从真实世界的错误中改进。

京东的真实世界竞技场

京东的做法是数据最密集的，但也是成本最高的。他们在“亚洲一号”智能仓库中部署了超过2000台自主移动机器人。每台机器人每天产生约500GB的传感器数据，包括高频IMU读数、立体摄像头画面以及来自抓取尝试的力-扭矩传感器日志。关键洞察在于，京东不仅收集成功的轨迹；他们明确记录失败案例。掉落的包裹、在湿滑表面上的抓取失败、由临时障碍物引起的导航错误——这些都被标记、存储并用于训练鲁棒的恢复策略。

京东机器人部门2024年的一项内部研究表明，在包含至少15%失败案例的数据集上训练的模型，在完成新任务时比仅基于成功演示训练的模型成功率高出34%。这是一个强有力的实证论据，证明了“负面数据”的价值。

关键参与者与案例研究

| 公司 | 核心策略 | 关键技术 | 部署规模 | 数据量（估计） |
|---|---|---|---|---|
| 群核科技 | 合成数据生成 | 场景语法引擎、域随机化 | 1000万+合成场景 | 50TB+ |
| 百度 | 数据管道架构 | Apollo Data Lake、学习型质量评分器 | 自动驾驶车队+机器人 | 数PB |
| 京东 | 真实世界数据采集 | 大规模AMR部署、失败日志系统 | 2000+ AMR | 每日1PB+ |

时间归档

延伸阅读

常见问题

这次公司发布“Embodied AI Data War: How Three Chinese Giants Are Rewriting the Rules of Physical Intelligence”主要讲了什么？

A quiet but profound paradigm shift is underway in embodied AI. The surface-level narrative of a data arms race obscures a deeper truth: the real battlefield is now the architectur…

从“embodied AI data infrastructure companies”看，这家公司的这次发布为什么值得关注？

The shift from algorithm-centric to data-centric embodied AI is driven by a hard engineering reality: the scaling laws that propelled large language models do not directly transfer to the physical world. In NLP, more tok…

围绕“synthetic data vs real data for robot training”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。