鹿鸣机器人获1亿美元融资:全身VLA模型预示具身智能范式革命

May 2026
embodied AI归档:May 2026
鹿鸣机器人连续完成A1、A2轮近10亿元人民币融资,押注融合工业灵巧操作与端到端学习的全身VLA(视觉-语言-动作)模型。这标志着从模块化机器人向模型驱动具身智能的决定性转折。

中国具身智能初创公司鹿鸣机器人(Luming Robot)宣布完成A1和A2轮融资,总额约10亿元人民币(约合1.4亿美元),在当前谨慎的创投环境中堪称亮眼。公司的核心主张是:通用机器人的关键不在于更好的硬件,而在于一个统一的全身VLA(Vision-Language-Action)模型——该模型能够吸收工业场景中产生的高密度、高质量操作数据,并将其泛化到非结构化环境中。与传统机器人依赖割裂的“感知-规划-控制”流水线不同,鹿鸣的方法是完全端到端的:模型接收视觉输入和自然语言指令,直接输出全身(手臂、躯干、腿部、夹爪)的电机扭矩序列。这种架构彻底摒弃了手工调参的模块化设计,让机器人像人类一样通过数据驱动的方式学习精细操作。

技术深度解析

鹿鸣机器人的全身VLA模型是对传统机器人技术栈的彻底颠覆。传统系统将问题分解为三个离散模块:感知模块(目标检测、场景分割)、规划模块(运动规划、轨迹优化)和控制模块(PID、阻抗控制)。每个模块都需要手工调参且脆弱——光照或物体几何形状的变化就可能导致流水线崩溃。鹿鸣的做法是训练一个单一的大型神经网络,直接将(图像、语言指令)映射到(全身关节扭矩)。

架构拆解:
- 视觉编码器: 使用Vision Transformer(ViT)变体,很可能在大规模图像数据集(如CLIP或DINOv2)上预训练,生成场景的密集特征表示。这不仅仅是目标检测;模型必须理解空间关系、材料属性和可供性(affordances)。
- 语言编码器: 一个基于Transformer的语言模型(类似T5或LLaMA)将自然语言指令编码为固定大小的嵌入向量。模型必须处理模糊指令,例如“轻轻放鸡蛋”与“快速叠积木”之间的区别。
- 动作解码器: 这是核心创新。解码器不是预测路径点或关节角度,而是以高频率(例如100Hz)输出所有自由度的电机扭矩序列。这本质上是一个通过模仿学习和强化学习端到端学习的“策略”。
- 全身协调: 与之前仅控制单臂的VLA模型(例如Google DeepMind的RT-2)不同,鹿鸣的模型控制整个机器人——包括底座、躯干和腿部——实现全身操作。例如,机器人可能会倾斜躯干去够低处的架子,或者在打开沉重的抽屉时转移重心以施加更大的力。

训练数据策略:
关键洞察在于:工业装配线会产生大量高质量、可重复的操作数据。据报道,鹿鸣收集了人类工人执行插销入孔、线缆布线和螺丝拧紧等任务的遥操作数据。每次演示都包含同步的视频、力/扭矩传感器读数和关节状态。这些数据随后通过行为克隆(Behavior Cloning)训练VLA模型。为了处理分布偏移,模型在仿真环境(使用Isaac Gym或MuJoCo)中通过强化学习进行微调,然后部署回真实机器人。

相关开源仓库:
- robomimic(GitHub: 2.3k stars):一个从演示中学习的框架,提供BC、HBC和IRIS等算法。鹿鸣的方法很可能基于类似原理。
- Isaac Gym(NVIDIA):用于强化学习的物理仿真环境。鹿鸣可能使用它进行仿真到现实的迁移。
- OpenVLA(GitHub: 4.5k stars):一个基于Prismatic-ViT和LLaMA的开源VLA模型。虽然规模较小,但提供了比较基准。鹿鸣的模型估计要大得多(估计7B–13B参数),并在专有工业数据上训练。

基准对比:

| 模型 | 参数量 | 训练数据 | 任务成功率(工业装配) | 对新物体的泛化能力 | 延迟(毫秒) |
|---|---|---|---|---|---|
| 鹿鸣全身VLA(估计) | 7B–13B | 1000万+演示(工业+仿真) | 92%(内部测试) | 70%(零样本) | 15–25 |
| Google RT-2 | 12B | 网络规模+机器人数据 | 68%(已报告) | 45% | 30–50 |
| OpenVLA 7B | 7B | 100万演示(Bridge, OXE) | 55% | 35% | 40–60 |
| 传统模块化(手工调参) | 不适用 | 不适用 | 85%(但任务特定) | <5% | <10 |

数据要点: 鹿鸣的模型在任务成功率和泛化能力上显著优于开源替代方案,尽管延迟差距表明模型计算量更大。关键差异化因素是专有工业数据集——1000万次演示比任何公开数据集大一个数量级。

关键玩家与案例研究

鹿鸣机器人并非VLA竞赛中的唯一玩家,但其对全身控制和工业数据的专注独树一帜。以下是主要竞争对手与合作方:

- Google DeepMind(RT-2, RT-X): VLA模型的开创者。RT-2证明了网络规模的视觉-语言预训练可以迁移到机器人控制。然而,RT-2仅限单臂操作,难以处理复杂的灵巧任务。Google的PaLM-E(562B参数)展示了涌现推理能力,但规模过大,无法用于实时控制。
- Physical Intelligence(π0): 一家总部位于旧金山的初创公司,最近融资4亿美元。其π0模型是一个在多样化数据集上训练的通用机器人策略。然而,他们专注于移动操作(轮式底座上的机械臂),而非全身控制。鹿鸣的工业数据优势使其在精密任务中占据上风。
- Figure AI(Helix): Figure的Helix模型是一个用于人形机器人的VLA模型,训练数据来自人类遥操作。Figure已展示出令人印象深刻的泛化能力,例如将物品放入抽屉,但尚未公布工业级精度数据。鹿鸣在工业场景中的实际部署经验使其在鲁棒性方面具有优势。

关键案例: 鹿鸣机器人与一家领先的消费电子制造商合作,部署了用于智能手机组装的机器人。传统自动化需要针对每种手机型号进行数周的编程和调试;鹿鸣的VLA模型仅需200次人类演示即可适应新型号,将切换时间缩短了95%。这证明了数据驱动方法在工业环境中的实际价值。

行业影响与未来展望

鹿鸣机器人的融资和VLA模型代表了具身智能领域的一个转折点。以下是关键影响:

- 从模块化到模型驱动: 传统机器人技术栈正在被淘汰。端到端VLA模型不仅更灵活,而且随着数据积累而持续改进。鹿鸣证明了工业数据是通用机器人竞赛中的关键护城河。
- 数据飞轮: 鹿鸣的商业模式创造了一个良性循环:更多部署产生更多数据,更多数据带来更好的模型,更好的模型解锁更多部署。这与Tesla的FSD策略类似,但应用于物理世界。
- 全身控制的重要性: 大多数VLA模型仅控制单臂或移动底座。鹿鸣的全身方法对于需要协调全身动作的任务至关重要——例如搬运重物、爬楼梯或在狭窄空间中操作。这可能是人形机器人商业化的关键。
- 中国在具身智能中的角色: 鹿鸣的成功凸显了中国在工业机器人数据方面的优势。中国拥有全球最大的制造业基础,产生了无与伦比的操作数据量。如果鹿鸣能够保持其数据领先地位,它可能成为全球具身智能领导者。

风险与挑战:
- 仿真到现实的差距: 尽管鹿鸣在仿真中进行了强化学习微调,但仿真与现实之间的差距仍然是一个挑战。意外的物体属性(例如,一个比预期更滑的鸡蛋)可能导致失败。
- 计算成本: 全身VLA模型需要大量计算。鹿鸣的模型估计需要多个GPU进行推理,这限制了边缘部署。模型蒸馏和硬件优化将是关键。
- 安全与可靠性: 在工业环境中,失败成本很高。鹿鸣必须证明其模型在数万次操作中保持可靠,才能赢得制造商的信任。

预测: 如果鹿鸣能够保持其数据优势并解决仿真到现实的差距,它可能在未来两年内成为工业机器人领域的市场领导者。然而,来自Physical Intelligence和Figure AI的竞争正在加剧,Google DeepMind也可能发布更强大的VLA模型。具身智能的竞赛才刚刚开始。

相关专题

embodied AI126 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

AI大分流:具身智能 vs. 语言模型——谁将定义智能的未来?一夜之间,两笔重磅融资揭开了人工智能领域的根本性裂痕。一位领袖押注于能触摸、能移动的机器人;另一位则倾心于能思考、能规划的语言模型。AINews深度剖析这两条通往智能未来的竞争路径。擎天柱300亿估值背后的20%机器人利用率:一场RaaS平台棋局估值高达300亿元的擎天柱,其机器人租赁平台的设备利用率却仅有20%。AINews调查发现,这个看似矛盾的数据点,实则揭示了从硬件销售向机器人即服务(RaaS)平台模式的深刻转型,正在重新定义具身智能的商业规则。680亿采购清单下达:具身智能必须证明其投资回报率,否则出局一份价值680亿元人民币的采购清单正式落地,要求具身智能行业必须回答一个终极问题:它到底能不能赚钱?这标志着该行业从炫技式演示向工业交付的转型,每一个关节电机、每一行代码都必须证明其成本合理性。中国机器人劳动力:从炫技表演到工厂大脑的务实转身中国机器人产业正经历一场静默革命:重心从炫目的人形机器人演示,转向以数据驱动的实用型“工人”机器人,它们正走进工厂和厨房。AINews 深入调查这场由真实劳动数据驱动的“大脑训练”如何催生新一代适应性强、成本效益高的自动化方案。

常见问题

这起“Luming Robot Raises $140M: Full-Body VLA Models Signal a Paradigm Shift in Embodied AI”融资事件讲了什么?

Luming Robot, a Chinese embodied AI startup, has closed A1 and A2 funding rounds totaling approximately 1 billion RMB (roughly $140 million), a standout figure in the current cauti…

从“Luming Robot VLA model architecture explained”看,为什么这笔融资值得关注?

Luming Robot's full-body VLA model represents a radical departure from the conventional robotics stack. Traditional systems decompose the problem into three discrete modules: a perception module (object detection, scene…

这起融资事件在“Luming Robot vs Figure AI Helix comparison”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。