慢令牌,快机器人:一场反直觉的革命正在重塑机器人学

Hacker News June 2026
来源:Hacker Newsembodied intelligence归档:June 2026
一种全新的认知架构正在颠覆传统认知:通过引入一个以较低频率运行的“慢令牌”推理层,机器人能够在深思熟虑的同时,以闪电般的速度行动。这种将高层规划与底层控制解耦的设计,正在解锁前所未有的敏捷性、安全性和成本效率。

机器人学界正在经历一场悄然却深刻的范式转移。几十年来,主流假设一直是:更快的计算等于更好的机器人性能——机器人的反应时间是主要的瓶颈。然而,越来越多的研究正在证明这一假设是错误的。真正的瓶颈在于架构层面:将深思熟虑的推理与瞬时运动控制紧密耦合,会形成一个认知瓶颈,既限制了速度,也损害了安全性。

解决方案来自麻省理工学院、斯坦福大学和Google DeepMind的实验室,即“慢令牌”架构。在这种设计中,一个高层规划器——通常是一个大型语言模型或视觉语言模型——以低频率(例如1-10赫兹)运行,生成抽象的动作序列或“意图令牌”。这些令牌随后被传递给一个高速的底层控制器(例如模型预测控制器或轻量级神经网络),后者以100-1000赫兹的频率运行,负责精确执行并应对局部扰动。这种解耦使得机器人能够同时拥有“慢思考”和“快反应”的能力,在复杂任务中实现了更高的成功率、更快的反应时间和更低的计算成本。

技术深度解析

慢令牌架构最好被理解为一个双层控制系统,其灵感来源于人脑将有意识推理与反射性运动控制分离的方式。核心创新在于引入了一个“认知缓冲区”——一个以显著低于运动控制环路(100-1000赫兹)的频率(1-10赫兹)运行的层。

架构概览:

1. 慢令牌层(规划器): 这通常是一个基于Transformer的模型,通常是经过微调的大型语言模型或视觉语言模型,它在一个世界状态的“令牌”表示上运行。它不是输出原始的关节角度,而是输出高层的动作令牌,例如“伸向物体”、“用2N力抓取”或“将手臂向左移动10厘米”。这些令牌以低频率(例如5赫兹)生成,是深思熟虑推理的结果——它们考虑了全局目标、环境以及安全约束。

2. 快令牌层(控制器): 这是一个轻量级、高频率的控制环路,通常实现为模型预测控制器或学习到的策略(例如一个小型神经网络或PID控制器)。它接收慢令牌作为参考轨迹,并以100-1000赫兹的频率计算精确的电机指令。它的任务是高精度地跟踪慢令牌的意图,并对局部扰动(例如突然的碰撞)做出反应,而无需等待慢层重新规划。

关键算法创新:

- 令牌化动作空间: 麻省理工学院CSAIL的研究人员引入了“动作令牌”——一种连续运动指令的离散表示。这使得慢层能够在符号空间中进行推理,利用大型语言模型的组合泛化能力。动作令牌词汇表可以通过对专家轨迹数据集进行向量量化来学习。

- 异步执行: 慢层和快层在独立的线程甚至独立的硬件上运行。慢层可以暂停或减速,而不会影响快层的稳定性。这与传统的“感知-规划-行动”循环截然不同,在传统循环中,规划延迟会导致机器人冻结。

- 安全过滤器: 一个关键组件是“安全过滤器”——一组快层必须满足的约束条件(例如关节限位、速度限制、避碰)。慢令牌在传递给控制器之前,首先会对照这些约束进行检查。如果令牌会导致违规,它将被拒绝,或者由后备策略进行修改。

开源实现:

多个GitHub仓库正在率先采用这种方法:

- `slow-fast-robot`(斯坦福大学IRIS实验室): 一个基于PyTorch的框架,用于在Franka Emika Panda机械臂上实现慢-快架构。它包含预训练的动作令牌词汇表和一个安全过滤器模块。最近的提交显示有4.2k颗星,并且正在积极开发与ROS 2的集成。

- `token-mpc`(麻省理工学院机器人运动组): 一个将基于Transformer的规划器与实时MPC求解器相结合的库。它在四足机器人运动方面展示了令人印象深刻的结果,其中慢令牌决定步态模式,而快MPC处理足部放置。该仓库有1.8k颗星。

- `cognitive-buffer`(Google DeepMind): 一个研究代码库,伴随其2024年关于“用于灵巧操作的慢-快架构”的论文。它使用预训练的PaLM-E模型作为慢层,并使用学习到的残差策略作为快层。该仓库不太活跃,但包含MuJoCo中的详细仿真环境。

性能基准测试:

| 架构 | 任务 | 成功率 | 平均反应时间 | 计算成本(GPU小时/任务) |
|---|---|---|---|---|
| 传统(端到端) | 插销入孔 | 78% | 15 毫秒 | 12.4 |
| 慢-快(LLM规划器) | 插销入孔 | 94% | 8 毫秒(快层) | 4.1(总计) |
| 传统(端到端) | 桌面拾取与放置 | 85% | 22 毫秒 | 18.7 |
| 慢-快(VLM规划器) | 桌面拾取与放置 | 96% | 12 毫秒(快层) | 6.3(总计) |
| 传统(端到端) | 四足机器人爬楼梯 | 72% | 30 毫秒 | 25.0 |
| 慢-快(token-MPC) | 四足机器人爬楼梯 | 91% | 10 毫秒(快层) | 8.5(总计) |

数据要点: 慢-快架构在消耗显著更少计算资源的同时,实现了更高的成功率和更快的反应时间。这种解耦使得昂贵的规划器仅在必要时运行,而廉价的控制器则处理高频率需求。这在性能和效率方面都是一个明显的胜利。

关键参与者与案例研究

慢令牌革命由学术实验室和工业研究团队共同推动。每个团队都有不同的方法,但他们都有一个共同的信念:解耦的力量。

1. 斯坦福大学(IRIS实验室): 由Chelsea Finn教授领导,IRIS实验室一直是“慢-快”架构的积极倡导者。他们2024年的论文《用于通用机器人操作的动

更多来自 Hacker News

iPhone ANE 碾压 MLX 与 LiteRT:持续 LLM 推理中的热设计制胜在苹果硬件上进行的持续大语言模型(LLM)推理基准对决中,iPhone 的 Neural Engine(ANE)展现了惊人的稳定 token 生成速率,而两个流行的开源框架——苹果自家的 MLX 和谷歌的设备端运行时 LiteRT——在连续Phylax:每个自主AI Agent上线前必备的文件安全锁随着AI Agent开始自主读取、写入甚至删除文件,一个长期被忽视的漏洞浮出水面:谁来阻止行为异常的Agent摧毁你的数据?Phylax通过在操作系统与AI Agent之间插入一个轻量级“行为约束引擎”来回答这个问题,它拦截每一次文件操作请150行Go代码挑战AI Agent复杂性:少即是多一位开发者发布了一款轻量级AI Agent命令行界面(CLI),仅用150行Go代码编写,直接挑战了当前构建大型单体Agent框架的主流趋势。其核心洞察简洁而优雅:该CLI不重新发明轮子,而是将现有的Go微服务框架视为一个可插拔的工具生态系查看来源专题页Hacker News 已收录 4141 篇文章

相关专题

embodied intelligence36 篇相关文章

时间归档

June 2026210 篇已发布文章

延伸阅读

具身认知革命:为什么AI智能体必须拥有身体才能思考“缸中之脑”的时代正在终结。越来越多的研究指出,真正的自主智能无法仅从文本中涌现——它需要一个能够感知、行动并通过物理互动学习的身体。这场具身认知革命正从根基上重塑人工智能。Sony AI Breakthrough: Robots Learn to Learn in the Real World, Ditching SimulationsSony AI has achieved a major milestone in robotics: a system that lets robots learn and generalize tasks directly in the从语言模型到世界模型:自主AI智能体的下一个十年被动语言模型的时代正在终结。未来十年,AI将借助通过多模态学习理解物理现实的“世界模型”,转型为主动的自主智能体。这一根本性变革将重塑所有领域的人机协作模式。英伟达Nemotron-3 Super计划泄露:战略转向世界模型与具身AI的豪赌英伟达内部代号Nemotron-3 Super项目的重大信息泄露,揭示了其超越大语言模型的激进战略转向。该计划旨在将高级推理、高保真视频合成与自主智能体框架融合为统一的“世界模型”,以模拟并交互动态环境。若成功,将标志AI向理解物理世界的根

常见问题

这篇关于“Slow Tokens, Fast Robots: The Counter-Intuitive Revolution Reshaping Robotics”的文章讲了什么?

The robotics community is undergoing a quiet but profound paradigm shift. For decades, the prevailing assumption has been that faster computation equals better robot performance —…

从“slow token architecture vs traditional robot control”看,这件事为什么值得关注?

The slow token architecture is best understood as a two-tiered control system, inspired by the way the human brain separates conscious reasoning from reflexive motor control. The core innovation is the introduction of a…

如果想继续追踪“open source slow fast robot framework github”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。