鹿鸣机器人获1亿美元融资：全身VLA模型预示具身智能范式革命

Q: 这起融资事件在“Luming Robot vs Figure AI Helix comparison”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。

中国具身智能初创公司鹿鸣机器人（Luming Robot）宣布完成A1和A2轮融资，总额约10亿元人民币（约合1.4亿美元），在当前谨慎的创投环境中堪称亮眼。公司的核心主张是：通用机器人的关键不在于更好的硬件，而在于一个统一的全身VLA（Vision-Language-Action）模型——该模型能够吸收工业场景中产生的高密度、高质量操作数据，并将其泛化到非结构化环境中。与传统机器人依赖割裂的“感知-规划-控制”流水线不同，鹿鸣的方法是完全端到端的：模型接收视觉输入和自然语言指令，直接输出全身（手臂、躯干、腿部、夹爪）的电机扭矩序列。这种架构彻底摒弃了手工调参的模块化设计，让机器人像人类一样通过数据驱动的方式学习精细操作。

技术深度解析

鹿鸣机器人的全身VLA模型是对传统机器人技术栈的彻底颠覆。传统系统将问题分解为三个离散模块：感知模块（目标检测、场景分割）、规划模块（运动规划、轨迹优化）和控制模块（PID、阻抗控制）。每个模块都需要手工调参且脆弱——光照或物体几何形状的变化就可能导致流水线崩溃。鹿鸣的做法是训练一个单一的大型神经网络，直接将（图像、语言指令）映射到（全身关节扭矩）。

架构拆解：
- 视觉编码器： 使用Vision Transformer（ViT）变体，很可能在大规模图像数据集（如CLIP或DINOv2）上预训练，生成场景的密集特征表示。这不仅仅是目标检测；模型必须理解空间关系、材料属性和可供性（affordances）。
- 语言编码器： 一个基于Transformer的语言模型（类似T5或LLaMA）将自然语言指令编码为固定大小的嵌入向量。模型必须处理模糊指令，例如“轻轻放鸡蛋”与“快速叠积木”之间的区别。
- 动作解码器： 这是核心创新。解码器不是预测路径点或关节角度，而是以高频率（例如100Hz）输出所有自由度的电机扭矩序列。这本质上是一个通过模仿学习和强化学习端到端学习的“策略”。
- 全身协调： 与之前仅控制单臂的VLA模型（例如Google DeepMind的RT-2）不同，鹿鸣的模型控制整个机器人——包括底座、躯干和腿部——实现全身操作。例如，机器人可能会倾斜躯干去够低处的架子，或者在打开沉重的抽屉时转移重心以施加更大的力。

训练数据策略：
关键洞察在于：工业装配线会产生大量高质量、可重复的操作数据。据报道，鹿鸣收集了人类工人执行插销入孔、线缆布线和螺丝拧紧等任务的遥操作数据。每次演示都包含同步的视频、力/扭矩传感器读数和关节状态。这些数据随后通过行为克隆（Behavior Cloning）训练VLA模型。为了处理分布偏移，模型在仿真环境（使用Isaac Gym或MuJoCo）中通过强化学习进行微调，然后部署回真实机器人。

相关开源仓库：
- robomimic（GitHub: 2.3k stars）：一个从演示中学习的框架，提供BC、HBC和IRIS等算法。鹿鸣的方法很可能基于类似原理。
- Isaac Gym（NVIDIA）：用于强化学习的物理仿真环境。鹿鸣可能使用它进行仿真到现实的迁移。
- OpenVLA（GitHub: 4.5k stars）：一个基于Prismatic-ViT和LLaMA的开源VLA模型。虽然规模较小，但提供了比较基准。鹿鸣的模型估计要大得多（估计7B–13B参数），并在专有工业数据上训练。

基准对比：

| 模型 | 参数量 | 训练数据 | 任务成功率（工业装配） | 对新物体的泛化能力 | 延迟（毫秒） |
|---|---|---|---|---|---|
| 鹿鸣全身VLA（估计） | 7B–13B | 1000万+演示（工业+仿真） | 92%（内部测试） | 70%（零样本） | 15–25 |
| Google RT-2 | 12B | 网络规模+机器人数据 | 68%（已报告） | 45% | 30–50 |
| OpenVLA 7B | 7B | 100万演示（Bridge, OXE） | 55% | 35% | 40–60 |
| 传统模块化（手工调参） | 不适用 | 不适用 | 85%（但任务特定） | <5% | <10 |

数据要点： 鹿鸣的模型在任务成功率和泛化能力上显著优于开源替代方案，尽管延迟差距表明模型计算量更大。关键差异化因素是专有工业数据集——1000万次演示比任何公开数据集大一个数量级。

关键玩家与案例研究

鹿鸣机器人并非VLA竞赛中的唯一玩家，但其对全身控制和工业数据的专注独树一帜。以下是主要竞争对手与合作方：

- Google DeepMind（RT-2, RT-X）： VLA模型的开创者。RT-2证明了网络规模的视觉-语言预训练可以迁移到机器人控制。然而，RT-2仅限单臂操作，难以处理复杂的灵巧任务。Google的PaLM-E（562B参数）展示了涌现推理能力，但规模过大，无法用于实时控制。
- Physical Intelligence（π0）： 一家总部位于旧金山的初创公司，最近融资4亿美元。其π0模型是一个在多样化数据集上训练的通用机器人策略。然而，他们专注于移动操作（轮式底座上的机械臂），而非全身控制。鹿鸣的工业数据优势使其在精密任务中占据上风。
- Figure AI（Helix）： Figure的Helix模型是一个用于人形机器人的VLA模型，训练数据来自人类遥操作。Figure已展示出令人印象深刻的泛化能力，例如将物品放入抽屉，但尚未公布工业级精度数据。鹿鸣在工业场景中的实际部署经验使其在鲁棒性方面具有优势。

关键案例： 鹿鸣机器人与一家领先的消费电子制造商合作，部署了用于智能手机组装的机器人。传统自动化需要针对每种手机型号进行数周的编程和调试；鹿鸣的VLA模型仅需200次人类演示即可适应新型号，将切换时间缩短了95%。这证明了数据驱动方法在工业环境中的实际价值。

行业影响与未来展望

鹿鸣机器人的融资和VLA模型代表了具身智能领域的一个转折点。以下是关键影响：

- 从模块化到模型驱动： 传统机器人技术栈正在被淘汰。端到端VLA模型不仅更灵活，而且随着数据积累而持续改进。鹿鸣证明了工业数据是通用机器人竞赛中的关键护城河。
- 数据飞轮： 鹿鸣的商业模式创造了一个良性循环：更多部署产生更多数据，更多数据带来更好的模型，更好的模型解锁更多部署。这与Tesla的FSD策略类似，但应用于物理世界。
- 全身控制的重要性： 大多数VLA模型仅控制单臂或移动底座。鹿鸣的全身方法对于需要协调全身动作的任务至关重要——例如搬运重物、爬楼梯或在狭窄空间中操作。这可能是人形机器人商业化的关键。
- 中国在具身智能中的角色： 鹿鸣的成功凸显了中国在工业机器人数据方面的优势。中国拥有全球最大的制造业基础，产生了无与伦比的操作数据量。如果鹿鸣能够保持其数据领先地位，它可能成为全球具身智能领导者。

风险与挑战：
- 仿真到现实的差距： 尽管鹿鸣在仿真中进行了强化学习微调，但仿真与现实之间的差距仍然是一个挑战。意外的物体属性（例如，一个比预期更滑的鸡蛋）可能导致失败。
- 计算成本： 全身VLA模型需要大量计算。鹿鸣的模型估计需要多个GPU进行推理，这限制了边缘部署。模型蒸馏和硬件优化将是关键。
- 安全与可靠性： 在工业环境中，失败成本很高。鹿鸣必须证明其模型在数万次操作中保持可靠，才能赢得制造商的信任。

预测： 如果鹿鸣能够保持其数据优势并解决仿真到现实的差距，它可能在未来两年内成为工业机器人领域的市场领导者。然而，来自Physical Intelligence和Figure AI的竞争正在加剧，Google DeepMind也可能发布更强大的VLA模型。具身智能的竞赛才刚刚开始。

时间归档

延伸阅读

常见问题

这起“Luming Robot Raises $140M: Full-Body VLA Models Signal a Paradigm Shift in Embodied AI”融资事件讲了什么？

Luming Robot, a Chinese embodied AI startup, has closed A1 and A2 funding rounds totaling approximately 1 billion RMB (roughly $140 million), a standout figure in the current cauti…

从“Luming Robot VLA model architecture explained”看，为什么这笔融资值得关注？

Luming Robot's full-body VLA model represents a radical departure from the conventional robotics stack. Traditional systems decompose the problem into three discrete modules: a perception module (object detection, scene…

这起融资事件在“Luming Robot vs Figure AI Helix comparison”上释放了什么行业信号？