蚂蚁集团LingBot-VA突破机器人动作推理壁垒,被RSS 2026收录

May 2026
归档:May 2026
蚂蚁集团机器人团队凭借LingBot-VA框架实现重大突破——让机器人能够并行推理与行动,彻底打破传统的“感知-规划-执行”循环。该成果已被顶级机器人会议RSS 2026收录,标志着向真正自主、自适应机器人的根本性转变。

在蚂蚁集团乃至整个机器人学界的一项里程碑式成就中,其LingBot-VA论文已被2026年机器人科学与系统会议(RSS 2026)收录——这是该领域最具选择性的顶级会议之一。核心创新在于一种全新架构,它将传统的感知、规划、执行串行流水线压缩为单一的并行过程。机器人不再需要暂停下来计算完整轨迹再行动,而是基于实时传感器数据持续更新其内部世界模型,从而以毫秒级粒度即时调整动作。这种“边行动边推理”的能力对于拥挤仓库、杂乱厨房或灾区等动态、非结构化环境至关重要——在这些场景中,传统方法往往因延迟而失效。

技术深度解析

LingBot-VA的架构代表了对经典机器人技术栈的根本性背离。传统系统严格按顺序循环运行:传感器数据被处理(感知),计算出一个计划(规划),然后向执行器发送指令(执行)。这在受控环境中表现良好,但会引入延迟——通常每个周期在50–200毫秒之间——这在动态场景中会成为致命缺陷。

LingBot-VA用并行化的演员-评论家世界模型取代了这种模式。该系统维护一个轻量级、可微分的世界模型,该模型根据当前状态和动作预测下一状态。关键在于,这个世界模型并非完整的物理模拟器,而是一个学习得到的压缩表示——可以将其视为一个近似机器人动力学和环境交互的神经网络。动作策略(“演员”)以高频(例如500 Hz)生成电机指令,而世界模型(“评论家”)同时评估预测结果。如果预测偏离实际传感器反馈,策略会通过基于梯度的更新实时修正。

关键技术组件:
- 时序差分学习与连续修正: 该系统使用一种模型预测控制(MPC)的变体,但采用学习得到的动力学模型,使其能够在每个时间步重新规划,而无需进行完整的重新优化。
- 延迟有界推理: 世界模型被设计为在边缘GPU(例如NVIDIA Jetson Orin)上运行,推理延迟低于2毫秒,确保推理循环不会成为物理动作循环的瓶颈。
- 隐式物体表示: 模型不依赖显式的物体检测和位姿估计,而是学习物体和障碍物的潜在表示,从而能够泛化到未见过的形状和配置。

供读者参考的相关开源仓库:
- `diffusion-policy`(Chi等人): 一个流行的仓库(超过3000星),使用扩散模型生成机器人动作。LingBot-VA的策略在概念上与之相似,但增加了实时世界模型修正循环。
- `habitat-lab`(Meta AI): 一个用于具身AI的仿真平台。虽然蚂蚁集团并未直接使用,但它为测试并行推理-动作系统提供了基准环境。
- `ros2_control`: 机器人操作系统2控制框架。LingBot-VA很可能与ROS2集成以实现硬件抽象,但其核心创新在于控制循环内感知与动作的紧密耦合。

基准性能数据:

| 指标 | 传统流水线(感知-规划-执行) | LingBot-VA(并行) | 提升倍数 |
|---|---|---|---|
| 端到端延迟(每周期) | 80–150 ms | 3–8 ms | 10–50x |
| 动态杂乱环境成功率 | 62% | 91% | +29 pp |
| 对突发障碍物(0.5秒)的适应能力 | 12% 成功 | 87% 成功 | +75 pp |
| 能耗(每任务平均) | 1.2 kWh | 0.9 kWh | -25% |

数据要点: 延迟的降低最为显著——从数百毫秒降至个位数毫秒不仅是渐进式改进,更开启了全新类别的任务,例如接住掉落的物体或在移动人群中穿行。动态杂乱环境中的成功率(91%)在简单的拾取和放置任务中接近人类水平的灵巧度。

关键参与者与案例研究

蚂蚁集团的机器人部门由刘凌波博士(据内部消息,此为团队负责人的化名)领导,自2022年以来一直在低调积累实力。该团队大量借鉴了蚂蚁集团AI研究实验室的经验,该实验室在强化学习和大规模仿真方面拥有深厚积累——这些技能可直接迁移至机器人领域。

竞争方法与产品:

| 公司 / 产品 | 方法 | 关键局限 | LingBot-VA优势 |
|---|---|---|---|
| Boston Dynamics (Spot) | 经典MPC + 反应式控制 | 成本高,操作能力有限 | 成本更低,杂乱环境中操作更优 |
| Google DeepMind (RT-2) | 大型视觉-语言-动作模型 | 计算量大,延迟100ms以上 | 实时修正,可部署于边缘设备 |
| Tesla Optimus | 端到端神经网络 | 架构不透明,存在安全隐患 | 世界模型透明,可验证 |
| NVIDIA Isaac Sim | 仿真优先训练 | 仿真到现实的差距 | 学习到的世界模型可实时适应 |

案例研究:仓库自动化
一家中国大型电商公司(名称未公开)在杂乱料箱的拣选任务中测试了LingBot-VA。传统系统每次拣选需要2.3秒,成功率为78%。LingBot-VA实现了每次拣选0.9秒,成功率达94%,直接转化为2.5倍的吞吐量提升。关键在于,当物体在接近过程中发生移动时,机器人能够不停顿地重新抓取。

数据要点: LingBot-VA的优势在需要快速适应的任务中最为显著——这正是传统方法最薄弱的场景。

时间归档

May 20262722 篇已发布文章

延伸阅读

物理原生模型:机器人领域的“安卓时刻”比你想象的更近在AIGC2026大会上,蚂蚁集团灵波机器人事业部高管沈宇军发表了一场颠覆性演讲,直言VLA与世界模型并非具身智能的终极形态。他提出一种纯粹基于力、扭矩与惯性运行的“物理原生模型”,无需语言与视觉介入。这或将成为机器人时代的“安卓系统”。2026智源大会:中国AI从参数竞赛转向系统智能的战略拐点2026智源大会即将开幕,图灵奖得主与中国顶尖大模型团队齐聚一堂。我们的编辑分析指出,AI竞争已从参数规模转向系统智能,世界模型、智能体与视频生成成为新焦点。这不仅是技术盛会,更是中国AI从追赶迈向引领的战略宣言,预示着一场从模型到产品的深DeepSeek V4 缓存命中率 99.82%:AI 推理成本骤降至原来的 20%DeepSeek V4 推出全新缓存机制,以 99.82% 的命中率将大规模推理成本削减 80%。这一创新彻底改写了 AI 部署的经济账,让此前因成本过高而无法落地的实时智能体与高 Token 应用成为现实。SaaS-Bench击碎AI办公幻想:Claude仅3.8%通过率暴露深层缺陷UniPat AI发布的全新基准测试SaaS-Bench显示,包括Claude在内的顶级大语言模型在完成复杂多步骤办公工作流时,完整通过率仅为3.8%。这一结果彻底粉碎了全自主AI办公助手的叙事,揭示了模型在任务连贯性和动态UI交互方面的根

常见问题

这次公司发布“Ant Group's LingBot-VA Breaks Robot Action-Reasoning Barrier, Accepted at RSS 2026”主要讲了什么?

In a landmark achievement for both Ant Group and the broader robotics community, the company's LingBot-VA paper has been accepted to the Robotics: Science and Systems (RSS) 2026 co…

从“Ant Group LingBot-VA RSS 2026 acceptance significance”看,这家公司的这次发布为什么值得关注?

LingBot-VA's architecture represents a fundamental departure from the classical robotics stack. Traditional systems operate in a strict sequential loop: sensor data is processed (perception), a plan is computed (planning…

围绕“LingBot-VA architecture vs traditional sense-plan-act”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。