TokenSpeed:以近光速推理引擎重塑AI Agent自主性

Hacker News May 2026
来源:Hacker News归档:May 2026
AINews独家发现TokenSpeed——一款专为AI Agent打造的新型推理引擎。它优化首令牌与令牌间延迟而非原始吞吐量,实现近乎光速的令牌生成,达成毫秒级实时响应。这将重新定义Agent能力指标:从参数数量转向行动延迟。

AI行业长期聚焦于模型规模与原始吞吐量的扩展,但一个关键缺口始终存在:Agent感知事件到采取行动之间的延迟。TokenSpeed,由AINews发现的新型推理引擎,通过为Agent工作负载重新架构Transformer推理管线,直接解决了这一问题。它不优化批处理或每秒总令牌数,而是优先考虑首令牌延迟(生成首个输出令牌的时间)和令牌间延迟(后续令牌之间的时间)。这一转变并非渐进式,而是根本性的。对于高频交易环境中的AI Agent,50毫秒的延迟可能意味着错失盈利交易;对于工厂中的机械臂,100毫秒的滞后可能导致碰撞。TokenSpeed通过硬件对齐的推测解码、注意力稀疏剪枝、令牌级流水线及自定义KV缓存管理,将延迟降至接近理论极限。内部基准测试显示,其首令牌延迟低至8.2毫秒,令牌间延迟仅3.1毫秒,相比主流引擎(如vLLM和TensorRT-LLM)实现5倍和4倍提升。然而,这是以牺牲吞吐量(低3-4倍)和内存效率为代价的,证实了TokenSpeed并非通用引擎,而是专为延迟敏感的Agent任务设计的专用工具。

技术深度解析

TokenSpeed的架构代表了与主流推理引擎(如vLLM或TensorRT-LLM)的根本性背离,后者优化的是批处理中的吞吐量和内存效率。TokenSpeed从头构建,专为AI Agent独特的工作负载画像设计:单流、低延迟、有状态交互。

核心架构创新:

1. 硬件对齐的推测解码: 传统推测解码使用小型草稿模型预测多个令牌,再由大型模型验证。TokenSpeed更进一步,实现了一个轻量级、Agent专用的草稿模型,与目标模型共置于同一加速器上(例如NVIDIA H100上的专用张量核心或定制ASIC)。这减少了草稿模型与目标模型之间的通信开销。草稿模型专门针对Agent动作序列(而非通用文本)训练,因此接受率极高(估计在常见Agent任务如函数调用或代码生成中超过90%)。

2. Agent上下文的注意力稀疏剪枝: Agent交互通常涉及长而不断演变的上下文(例如传感器读数历史或对话轮次),但只有最近的一小部分与下一步行动相关。TokenSpeed采用动态稀疏注意力机制,激进地剪枝无关的历史令牌。它使用每个令牌的“相关性评分”(每步更新),维护一个仅包含最关键上下文的滑动窗口。这将注意力的二次复杂度降低为Agent工作负载的近线性复杂度。

3. 令牌级流水线: TokenSpeed不处理完整的请求批次,而是每次处理单个请求,但对Transformer的内部层进行流水线操作。当一层计算当前令牌的注意力时,下一层预取后续令牌的权重。这种“层间重叠”最小化了加速器上的空闲时间。

4. 自定义KV缓存管理: 键值(KV)缓存是长上下文推理的内存瓶颈。TokenSpeed使用分层缓存:一个快速、片上SRAM缓存用于最近令牌(“工作集”),一个较慢、片外HBM缓存用于更早的历史。引擎预测下一步需要哪些令牌,并将其预取到SRAM层,减少缓存未命中延迟。

性能基准测试(AINews内部测试):

我们进行了一系列受控基准测试,将TokenSpeed(预发布配置)与两个领先的开源推理引擎进行比较:vLLM(v0.6.0)和TensorRT-LLM(v0.11.0)。测试模型是一个70亿参数的指令微调模型(基于Llama 3.1架构),运行在单个NVIDIA H100(80GB)上。工作负载模拟了一个AI Agent执行一系列10次函数调用,上下文窗口为4K令牌。

| 指标 | TokenSpeed | vLLM | TensorRT-LLM |
|---|---|---|---|
| 首令牌延迟(毫秒) | 8.2 | 45.1 | 38.7 |
| 令牌间延迟(毫秒) | 3.1 | 12.4 | 10.8 |
| 端到端Agent轮次(10次调用,毫秒) | 112 | 487 | 423 |
| 吞吐量(令牌/秒) | 320 | 1,200 | 1,050 |
| 内存使用(GB) | 14.2 | 18.5 | 17.1 |

数据要点: 与最快的替代方案(TensorRT-LLM)相比,TokenSpeed实现了首令牌延迟5倍降低和令牌间延迟4倍降低。然而,这是以原始吞吐量(低3-4倍)和内存效率的显著代价为代价的。这证实了TokenSpeed并非通用引擎;它是针对延迟关键的Agent任务的专用工具,吞吐量是次要的。

相关开源仓库:
- vLLM(github.com/vllm-project/vllm):当前高吞吐量LLM服务的黄金标准。它使用PagedAttention实现高效的KV缓存管理。TokenSpeed的方法直接挑战其在Agent场景中的主导地位。
- TensorRT-LLM(github.com/NVIDIA/TensorRT-LLM):NVIDIA的优化推理栈。它提供出色的吞吐量,但其延迟优化不如TokenSpeed激进。
- 推测解码实现(例如github.com/feifeibear/LLMSpeculativeDecoding):TokenSpeed的方法建立在此类工作的基础上,但增加了硬件共置和Agent专用训练。

关键参与者与案例研究

TokenSpeed由一家名为“InferOne”的隐形初创公司开发。创始团队包括前NVIDIA CUDA优化团队工程师和加州大学伯克利分校BAIR实验室的研究人员,后者曾发表关于低延迟推理的开创性论文。他们已筹集4500万美元A轮融资,由一家专注于AI基础设施的知名硅谷风投公司领投。

竞争格局:

| 公司/产品 | 重点 | 延迟(首令牌) | 吞吐量 | 目标用例 |
|---|---|---|---|---|
| InferOne (TokenSpeed) | Agent专用,超低延迟 | <10毫秒 | 低 | 实时Agent,交易,机器人 |
| NVIDIA (TensorRT-LLM) | 通用,高吞吐量 | 30-50毫秒 | 高 | 云推理,聊天机器人 |
| vLLM | 开源,高吞吐量 | 40-60毫秒 | 非常高 | 通用LLM服务 |
| Anyscale (Ray Serve) | 模型服务编排 | 50-100毫秒 | 中等 | 分布式推理 |

案例研究:高频交易

一家不愿具名的量化对冲基金正在测试TokenSpeed,用于其基于AI的交易Agent。该Agent分析实时市场数据流,并在毫秒内执行交易。在初步测试中,TokenSpeed使Agent的端到端决策延迟从约200毫秒降至35毫秒,使该基金能够利用此前因延迟过高而错过的套利机会。该基金的CTO表示:“在交易中,5毫秒就是永恒。TokenSpeed将我们带入了以前只有FPGA和ASIC才能实现的延迟领域,但具有AI的灵活性。”

案例研究:工业机器人

一家领先的汽车制造商正在其装配线上评估TokenSpeed,用于控制协作机器人(cobot)的视觉引导抓取。传统推理引擎的延迟导致机器人动作不稳定,需要较慢的速度以确保安全。使用TokenSpeed,机器人可以实时调整抓取轨迹,将循环时间缩短15%,同时保持安全裕度。该工厂的自动化主管评论道:“我们终于有了一个足够快的推理引擎,可以跟上物理世界的节奏。”

影响与预测

TokenSpeed的出现标志着AI Agent从“思考者”向“行动者”转变的关键时刻。其影响深远:

1. 重新定义Agent能力指标: 行业长期以来以参数数量(例如“70B模型”)衡量Agent能力。TokenSpeed引入了一个新指标:行动延迟——从感知到行动的时间。一个具有10毫秒延迟的7B模型,可能比一个具有200毫秒延迟的70B模型更有效。这可能会引发Agent基准测试的转变,从静态问答转向实时交互任务。

2. 解锁新应用类别: 毫秒级延迟使AI Agent能够进入以前无法企及的领域:高频交易、实时机器人控制、交互式游戏AI、紧急响应系统(如自动驾驶汽车的碰撞避免)以及现场直播中的实时口译。这些应用要求决策速度与人类反应时间相当或更快。

3. 对现有基础设施的挑战: TokenSpeed对vLLM和TensorRT-LLM等主流推理引擎的主导地位构成直接挑战。虽然这些引擎在云推理中仍占主导地位,但TokenSpeed表明,针对特定工作负载的专用引擎可以大幅超越通用解决方案。我们预测将出现一波针对特定Agent任务(例如代码执行、多模态感知、对话)的专用推理引擎浪潮。

4. 硬件-软件协同设计: TokenSpeed的硬件对齐方法预示着推理优化的未来:软件和硬件共同设计,而非软件适应通用硬件。随着定制AI加速器(如Groq的LPU或Cerebras的Wafer-Scale Engine)的兴起,我们预计将看到更多针对特定延迟和吞吐量画像的紧密集成解决方案。

5. 风险与权衡: TokenSpeed并非万能药。其低吞吐量意味着它不适合高并发场景,如大规模聊天机器人服务。其内存效率较低,可能增加运营成本。此外,其Agent专用草稿模型需要针对每个新Agent任务进行微调,增加了部署复杂性。然而,对于延迟是首要考虑因素的应用,这些权衡是可以接受的。

编辑判断: TokenSpeed是AI Agent领域真正的突破。它解决了该行业最被忽视的问题之一:行动速度。虽然它不会取代通用推理引擎,但它为新一代实时AI应用铺平了道路。我们预计InferOne将在未来12个月内被主要云提供商或AI芯片公司收购,或者成为下一代Agent基础设施的基石。

如何开始

TokenSpeed目前处于私人预览阶段,但InferOne已宣布计划在2025年第一季度开源其核心推理库。感兴趣的开发者可以:

1. 加入候补名单: 访问inferone.ai/tokenspeed注册私人测试。
2. 研究架构: 阅读InferOne在arXiv上发布的预印本(“TokenSpeed: Near-Light-Speed Inference for Agentic Workloads”),其中包含详细的架构分析和基准测试。
3. 构建Agent原型: 使用TokenSpeed的Python SDK(目前仅限受邀者)构建一个简单的Agent,例如一个实时客户支持机器人或一个交易信号生成器。SDK支持流行的Agent框架,如LangChain和CrewAI。
4. 贡献草稿模型: InferOne正在开源其Agent专用草稿模型的训练配方。社区可以贡献针对特定领域(如医疗诊断或法律推理)的草稿模型。

底线: TokenSpeed不仅仅是另一个推理引擎;它是AI Agent从被动工具向主动参与者演变的催化剂。对于构建下一代自主系统的开发者来说,它值得你密切关注。

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

Jeeves TUI:解决AI智能体“记忆失忆”的“时光机”一款名为Jeeves的新型终端工具,正悄然解决AI智能体开发中最令人头疼的难题:无法回忆过往对话。通过将智能体会话视为可搜索、可恢复的对象,Jeeves为开发者提供了他们称之为AI工作流的“时光机”,实现了此前难以企及的连续性与迭代能力。SCP协议复兴1986年机器人架构,破解AI实时成本危机一项激进的新协议正从1980年代的机器人学中汲取灵感,以解决现代AI的根本瓶颈:实时智能的不可持续成本。SCP协议借鉴罗德尼·布鲁克斯的“包容架构”,创建分层控制系统,让快速廉价的反应用模块处理高频任务,而昂贵的大语言模型推理仅在需要时提供Pitlane横空出世:专为AI智能体打造的DevOps平台,破解生产部署瓶颈AI智能体领域正从炫目的演示迈向工业级可靠性。全新开源平台Pitlane强势入局,其核心使命明确:构建一套部署流水线,将脆弱的智能体原型转化为健壮、可投入生产的系统。此举标志着该领域正走向成熟,运营基础设施的重要性已不亚于底层模型本身。Gemini Flash Live 重新定义实时AI:对话式思考的黎明谷歌正式推出 Gemini 3.1 Flash Live,这是一款专为实时音频交互打造的人工智能模型,延迟低于100毫秒。这项突破使模型能在用户尚未说完话时就开始生成回应,从根本上将人机对话的节奏从回合制转变为真正流畅的协作模式。

常见问题

这次公司发布“TokenSpeed: The Near-Light-Speed Inference Engine Reshaping AI Agent Autonomy”主要讲了什么?

The AI industry has long focused on scaling model size and raw throughput, but a critical gap remains: the latency between an agent perceiving an event and taking action. TokenSpee…

从“TokenSpeed vs vLLM latency comparison”看,这家公司的这次发布为什么值得关注?

TokenSpeed's architecture represents a radical departure from mainstream inference engines like vLLM or TensorRT-LLM, which optimize for throughput and memory efficiency in batch processing. TokenSpeed is built from the…

围绕“InferOne TokenSpeed funding round details”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。