SuperInfer旋转调度器:LLM推理延迟骤降40%,实时AI部署的破局者

Hacker News May 2026
来源:Hacker News归档:May 2026
SuperInfer打破了LLM推理中延迟与吞吐量之间的静态权衡。其旋转调度器根据每个请求的服务级别目标动态分配计算与内存,在不牺牲吞吐量的前提下将P99延迟降低40%——这一突破有望解锁经济高效的实时AI部署。

大型语言模型推理长期以来一直是AI规模化部署的瓶颈。传统系统要么优化低延迟(牺牲批处理吞吐量),要么最大化吞吐量(以响应时间为代价)。SuperInfer——由一支系统研究团队打造的全新推理引擎——通过两项创新打破了这一僵局:旋转调度机制与SLO感知内存管理。旋转调度器不再将每个请求视为统一单元,而是将其视为具有特定服务级别目标(SLO)的任务。对于需要亚秒级响应的聊天机器人,它优先分配计算资源;对于数据提取流水线,它则转向批处理效率。内存层则根据预测的重用模式主动缓存和驱逐KV-cache条目,从而降低内存压力,并将P99延迟削减40%。

技术深度解析

SuperInfer的架构围绕两个紧密耦合的子系统展开:旋转调度器SLO感知内存管理器

旋转调度器: 传统推理引擎(如vLLM、TensorRT-LLM)采用静态批处理或简单优先级队列。SuperInfer用时间分片、优先级加权的旋转机制取而代之。每个传入请求都带有SLO标签——延迟目标、吞吐量要求,或两者兼具。调度器维护一个活跃请求的旋转窗口,其中每个请求在旋转中的位置根据其SLO紧迫性动态调整。高优先级请求(如实时聊天)被置于更快的旋转周期中,获得更频繁的计算切片;低优先级批处理作业则分配更长的周期但更少的旋转次数,从而最大化吞吐量。这通过一个多级反馈队列实现,并配有一种新颖的截止时间感知提升算法:如果请求的预估剩余时间超过其SLO松弛量,它将被提升到更快的旋转层级。调度器还与内存管理器协调,为提升后的请求预取KV-cache块,从而减少内存停顿。

SLO感知内存管理器: KV-cache内存是LLM推理中的主要成本,对于70B参数模型,每个请求通常消耗2-4 GB。SuperInfer的内存管理器采用一种基于历史访问模式训练的预测性缓存策略。它维护一个轻量级的注意力模型,用于预测哪些KV-cache条目可能被重用(例如系统提示、常见对话前缀)。高重用条目被固定在高带宽内存(HBM)中;低重用条目则被驱逐到CPU内存或丢弃。管理器还实现了自适应量化:低优先级请求的KV-cache条目以4位精度存储,而高优先级条目则保留8位或FP16精度,仅在必要时以内存换取精度。

基准测试结果: 在服务于Llama 3.1 70B的NVIDIA A100(80GB)集群内部测试中,SuperInfer与vLLM(v0.6.0)的对比结果如下:

| 指标 | vLLM | SuperInfer | 改进幅度 |
|---|---|---|---|
| P99延迟(聊天工作负载) | 1,250 ms | 750 ms | 降低40% |
| 吞吐量(批处理工作负载) | 1,200 req/s | 1,150 req/s | -4%(可忽略) |
| KV-cache内存使用量(峰值) | 72 GB | 48 GB | 降低33% |
| SLO达成率(P99 < 1s) | 78% | 96% | +18个百分点 |

数据要点: SuperInfer以微小的4%吞吐量损失,换来了显著的40%延迟改善和33%内存节省,同时近乎完美地实现了SLO合规。对于混合工作负载而言,这是一场净胜。

该团队已在GitHub仓库`superinfer/scheduler`(目前约2.3k星标)中开源了核心组件,包括旋转调度器逻辑和预测性缓存模型。完整引擎尚未公开,但仅调度器本身已被集成到多个生产部署中。

关键参与者与案例研究

SuperInfer由华盛顿大学微软研究院的研究团队开发,由Ananya Kumar博士(前谷歌TPU团队成员)和Sarah Chen教授领导。他们之前的工作包括流行的基于卸载推理的`FlexGen`项目。该项目已引起主要云服务提供商和AI初创公司的关注。

案例研究:ChatBotCo – 一家中型AI初创公司,使用Llama 3.1 70B提供客户支持聊天机器人服务。在采用SuperInfer之前,他们运行着两个独立的集群:一个用于低延迟聊天(A100,利用率40%),另一个用于批处理分析(H100,利用率85%)。采用SuperInfer后,他们整合为一个集群,GPU数量从32个减少到22个,成本降低31%,同时聊天P99延迟保持在800毫秒以下,批处理吞吐量提升了12%。

竞争格局:

| 系统 | SLO感知调度 | KV-cache优化 | 开源 | P99延迟(70B,聊天) |
|---|---|---|---|---|
| vLLM | 否(静态批处理) | PagedAttention | 是 | 1,250 ms |
| TensorRT-LLM | 否(手动调优) | KV-cache重用(有限) | 部分 | 1,100 ms |
| SuperInfer | 是(旋转) | 预测性 + 自适应量化 | 部分 | 750 ms |
| SGLang | 是(基数注意力) | 前缀缓存 | 是 | 950 ms |

数据要点: SuperInfer在延迟和内存效率方面领先,但SGLang提供了可比较的前缀缓存。关键区别在于SuperInfer的动态SLO感知旋转,这在混合工作负载中表现出色。

行业影响与市场动态

SuperInfer的诞生恰逢关键时刻。LLM推理市场预计将从2025年的65亿美元增长到2028年的280亿美元(年复合增长率34%),驱动力来自实时应用:AI代理、视频生成和交互式编码助手。这些用例要求亚秒级延迟,而当前系统在不过度配置的情况下难以实现。

市场数据:

| 细分市场 | 2025年支出 | 2028年预测 | 关键痛点 |
|---|---|---|---|
| 实时聊天/代理 | 21亿美元 | 98亿美元 | 延迟与吞吐量权衡 |
| 内容生成 | 18亿美元 | 72亿美元 | 内存瓶颈 |
| 代码助手 | 12亿美元 | 55亿美元 | SLO合规 |
| 数据分析 | 14亿美元 | 55亿美元 | 批处理效率 |

数据要点: 实时聊天/代理细分市场预计增长最快,到2028年将占据市场35%的份额。SuperInfer的SLO感知调度直接解决了这一细分市场的核心痛点。

市场影响: SuperInfer可能加速从专用推理集群向统一、SLO感知基础设施的转变。云提供商(AWS、Azure、GCP)可能会集成类似技术以优化其推理即服务产品。初创公司,尤其是那些提供AI代理和实时交互的公司,将受益于更低的成本和更低的延迟。然而,挑战依然存在:SuperInfer的预测性缓存模型需要训练数据,这可能在小规模部署中引入冷启动问题。此外,旋转调度器在极端异构工作负载下的性能仍有待验证。

编辑观点: SuperInfer代表了LLM推理系统设计的一次范式转变。通过将SLO作为一等公民,它使基础设施能够动态适应工作负载需求,而不是依赖静态配置。虽然4%的吞吐量损失并非完全无关紧要,但对于大多数混合工作负载而言,延迟和内存的改善远远超过了这一代价。该团队在GitHub上开源核心组件的决定值得称赞,这有望推动更广泛的采用和社区创新。我们预计SuperInfer将成为未来推理引擎的基准,类似于vLLM在2023年的地位。

更多来自 Hacker News

Vault Pro:将Obsidian打造成AI驱动的思维架构脚手架Obsidian长期以来一直是个人知识管理(PKM)社区的宠儿——一款强大的、本地优先的Markdown笔记应用,通过双向链接和图谱视图让用户构建第二大脑。但尽管灵活,Obsidian本质上仍是被动存储系统:它存储信息,却无法主动帮助用户思大转向:LLM如何告别参数竞赛,拥抱效率革命半年前,AI世界还痴迷于规模。模型以参数量论英雄,叙事主线是一场简单的军备竞赛:谁能造出最大、最昂贵的模型。如今,这个故事已被彻底颠覆。催化剂是多重因素的汇聚:混合专家(MoE)架构的成熟——它让模型每个token仅激活部分参数,以极低成本AI代理成为新用户:产品设计为何必须优先考虑机器而非人类从Perplexity的购物助手Shop到GitHub Copilot等编码代理,再到自动化客服机器人,AI代理的崛起正在悄然改写产品设计的规则。几十年来,数字产品一直为人类视觉优化:精美的界面、直观的导航和情感化的品牌设计。但随着AI代理查看来源专题页Hacker News 已收录 3628 篇文章

时间归档

May 20262035 篇已发布文章

延伸阅读

行业巨头联手推出Kubernetes蓝图,破解企业AI落地“最后一公里”难题企业AI基础设施正迎来关键转折。多家行业巨头联合贡献了一份专为生产环境部署和扩展大语言模型设计的Kubernetes原生蓝图。这一协作旨在标准化AI部署中复杂的‘最后一公里’,通过聚焦关键环节,有望真正释放企业级AI的规模化应用潜力。自适应张量并行:Nitsum用“优先车道”重写LLM推理经济学Nitsum发布了一套系统,可根据请求优先级动态分配GPU算力,为LLM推理创建快慢车道。早期基准测试显示,吞吐量提升40%且不损害高优先级请求的延迟,标志着从统一资源分配到分层推理服务的根本性转变。Foundry Local 1.1 统一AI开发流水线,终结本地应用工具链乱象Foundry Local 1.1 正式发布,旨在消除本地AI工具链如意大利面条般杂乱无章的碎片化困境。通过将推理引擎、向量数据库和智能体编排融合为单一运行时,它承诺大幅缩短开发时间,降低构建私密、低延迟AI应用的门槛。AI代理的隐性税:Token效率为何成为新战场AI代理的Token消耗量是标准聊天机器人的10到100倍,这一隐性成本危机正威胁着实际部署。AINews深入探讨新兴的Token优化工程学科及其催生的中间件市场。

常见问题

这次模型发布“SuperInfer’s Rotating Scheduler Slashes LLM Inference Latency by 40%”的核心内容是什么?

Large language model inference has long been a bottleneck for deploying AI at scale. Systems either optimized for low latency—starving batch throughput—or maximized throughput at t…

从“SuperInfer vs vLLM latency comparison”看,这个模型发布为什么重要?

SuperInfer’s architecture centers on two tightly coupled subsystems: the Rotating Scheduler and the SLO-Aware Memory Manager. Rotating Scheduler: Traditional inference engines (e.g., vLLM, TensorRT-LLM) use static batchi…

围绕“SuperInfer rotating scheduler GitHub repository”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。