自适应张量并行:Nitsum用“优先车道”重写LLM推理经济学

Hacker News May 2026
来源:Hacker News归档:May 2026
Nitsum发布了一套系统,可根据请求优先级动态分配GPU算力,为LLM推理创建快慢车道。早期基准测试显示,吞吐量提升40%且不损害高优先级请求的延迟,标志着从统一资源分配到分层推理服务的根本性转变。

整个LLM推理行业一直痴迷于一个单一问题:如何让每个token更便宜?专注于推理基础设施的研究团队Nitsum提出了一个更根本的问题:为什么每个请求都要获得相同的计算待遇?他们的答案是:在请求级别实现自适应张量并行,实际上在同一个GPU集群内创建了优先车道。传统的张量并行将模型静态分片到多个GPU上,迫使每个查询——无论是高频交易代理还是批量内容审核任务——都经过相同的通信拓扑和队列。Nitsum通过预计算多种并行化策略,并在微秒级切换它们而不中断推理过程,打破了这一模式。早期基准测试显示,在8×A100-80GB节点上运行Llama 3.1 70B时,吞吐量从120 req/s提升至168 req/s,高优先级请求的P99延迟维持在410ms,而低优先级请求的P99延迟为890ms——这对批量工作负载来说完全可以接受。GPU利用率从72%跃升至91%,意味着更少的算力闲置。这一创新为云服务商提供了分层定价的可能,预计可将推理收入每GPU提升25-35%。

技术深度解析

Nitsum的核心在于解决了一个自GPT-3时代以来一直困扰大规模LLM服务的问题:张量并行是静态的。当你将70B参数的模型部署到8个GPU上时,模型被分割成固定的块,每个请求都遵循相同的all-reduce通信模式。当所有请求平等时,这没问题;但在生产环境中,它们并不平等。实时代理查询需要低于200ms的响应时间;夜间批量任务可以容忍10秒的延迟。然而,两者消耗相同的GPU内存带宽和互联周期。

Nitsum的创新在于将并行拓扑与模型部署解耦。系统不是采用一种固定的分片策略,而是离线预计算一组并行化方案——例如,为高优先级请求准备4-GPU方案,为低优先级请求准备2-GPU方案。在运行时,一个轻量级调度器检查每个传入请求的优先级标签,并选择合适的方案。关键的工程挑战是在毫秒内重新配置张量并行拓扑,而不刷新KV缓存或中断正在进行的批次。Nitsum通过一种称为“零开销方案切换”的技术实现了这一点。他们为每个方案预分配独立的CUDA流和通信组,然后使用硬件级屏障在推理步骤开始时原子性地切换活动方案。KV缓存在方案间共享,因为模型权重相同;只有分片布局发生变化。这意味着高优先级请求可以跳入专用的GPU子集,而低优先级批次继续在剩余GPU上运行,所有操作都在同一个推理步骤内完成。

在运行Llama 3.1 70B的8×A100-80GB节点上的早期基准测试结果如下:

| 配置 | 吞吐量 (req/s) | P99延迟 (高优先级) | P99延迟 (低优先级) | GPU利用率 |
|---|---|---|---|---|
| 静态TP (8-GPU) | 120 | 420ms | 420ms | 72% |
| Nitsum自适应 (混合) | 168 | 410ms | 890ms | 91% |

数据要点: Nitsum通过允许低优先级请求在更少的GPU上排队和处理,同时为高优先级请求提供专用快速路径,实现了40%的吞吐量提升。低优先级任务的延迟惩罚对批量工作负载来说是可接受的,整体GPU利用率从72%跃升至91%,意味着更少的算力闲置。

对于希望探索类似概念的读者,开源仓库`vllm-project/vllm`(超过45,000星)实现了基本的请求级调度,但缺乏自适应张量并行。另一个相关项目是`flyteorg/flyte`(5,000+星),它提供工作流级优先级调度,但粒度粗得多。Nitsum的方法介于这两个极端之间,在张量并行级别运作。

关键参与者与案例研究

Nitsum本身是一个相对较新的进入者,但其方法建立在主要参与者多年工作的基础上。Google的Pathways系统引入了大型模型的动态资源分配概念,但它在作业级别而非请求级别运作。Microsoft的DeepSpeed Inference提供灵活的并行性,但需要每次部署时手动配置。Nitsum的关键差异化在于推理时的自动化。

云服务商是最明显的采用者。AWS、Google Cloud和Azure目前对LLM推理按每token统一收费(例如,AWS Bedrock上Llama 3.1 70B每1K token收费0.0035美元)。Nitsum实现了分层定价模型:

| 提供商 | 当前定价 (每1K token) | Nitsum启用的层级 | 预估溢价 |
|---|---|---|---|
| AWS Bedrock | $0.0035 | 优先车道 | +50% ($0.00525) |
| Google Vertex AI | $0.0030 | 优先车道 | +40% ($0.00420) |
| Azure OpenAI Service | $0.0035 | 优先车道 | +60% ($0.00560) |

数据要点: 通过提供保证低延迟的优先车道,云服务商可以对高SLA工作负载收取40-60%的溢价,同时仍以折扣价向后台任务出售批量token。假设标准流量与优先流量比例为70/30,这可将每GPU的推理收入平均提升25-35%。

代理平台是最直接的受益者。像LangChain、AutoGPT和CrewAI这样的公司编排多步骤代理工作流,其中单个代理调用可能涉及5-10次LLM查询。如果链中的第一个查询被延迟,整个代理就会停滞。Nitsum的优先车道确保代理链获得一致的低延迟,而底层非代理任务(如嵌入生成)的批处理则在慢速车道上运行。这类似于云服务商如何为数据库提供预配置的IOPS与可突发的吞吐量。

行业影响与市场动态

LLM推理市场预计将从2024年的65亿美元增长到2028年的350亿美元(年复合增长率40%)。目前,大部分收入来自统一费率的API调用。Nitsum的模式引入了一个根本性转变:推理成为一种差异化服务。

更多来自 Hacker News

Vault Pro:将Obsidian打造成AI驱动的思维架构脚手架Obsidian长期以来一直是个人知识管理(PKM)社区的宠儿——一款强大的、本地优先的Markdown笔记应用,通过双向链接和图谱视图让用户构建第二大脑。但尽管灵活,Obsidian本质上仍是被动存储系统:它存储信息,却无法主动帮助用户思大转向:LLM如何告别参数竞赛,拥抱效率革命半年前,AI世界还痴迷于规模。模型以参数量论英雄,叙事主线是一场简单的军备竞赛:谁能造出最大、最昂贵的模型。如今,这个故事已被彻底颠覆。催化剂是多重因素的汇聚:混合专家(MoE)架构的成熟——它让模型每个token仅激活部分参数,以极低成本AI代理成为新用户:产品设计为何必须优先考虑机器而非人类从Perplexity的购物助手Shop到GitHub Copilot等编码代理,再到自动化客服机器人,AI代理的崛起正在悄然改写产品设计的规则。几十年来,数字产品一直为人类视觉优化:精美的界面、直观的导航和情感化的品牌设计。但随着AI代理查看来源专题页Hacker News 已收录 3628 篇文章

时间归档

May 20262035 篇已发布文章

延伸阅读

SuperInfer旋转调度器:LLM推理延迟骤降40%,实时AI部署的破局者SuperInfer打破了LLM推理中延迟与吞吐量之间的静态权衡。其旋转调度器根据每个请求的服务级别目标动态分配计算与内存,在不牺牲吞吐量的前提下将P99延迟降低40%——这一突破有望解锁经济高效的实时AI部署。隐秘战场:LLM推理效率如何重塑AI格局当大语言模型训练竞赛触及天花板,推理效率正成为AI商业化的决胜关键。AINews深度解析KV缓存、投机解码与硬件创新如何将成本降低数个数量级,解锁从语音助手到自主编程代理的实时应用。OMLX:让Apple Silicon Mac变身高性能私有AI服务器,隐私与性能兼得开源项目OMLX正悄然改变Apple Silicon Mac的定位,将其转化为高性能本地AI服务器。通过充分利用M系列芯片的统一内存架构,OMLX在实现媲美云端GPU推理速度的同时,确保所有数据离线处理,为隐私敏感行业提供了极具吸引力的解决SMILE-Serve 统一 JVM 上的 ML 与 LLM 推理,挑战 Python 主导地位基于 Quarkus 构建的生产级推理服务器 SMILE-Serve,通过统一 API 在 JVM 上整合了经典机器学习、ONNX Runtime 和 LLM 聊天能力。这一战略性集成挑战了 Python 在 AI 领域的主导地位,为 Ja

常见问题

这起“Adaptive Tensor Parallelism: Nitsum Rewrites LLM Inference Economics with Priority Lanes”融资事件讲了什么?

The entire LLM inference industry has been obsessed with a single question: how do we make every token cheaper? Nitsum, a research group focused on inference infrastructure, has as…

从“Nitsum adaptive tensor parallelism GitHub repository”看,为什么这笔融资值得关注?

At its core, Nitsum solves a problem that has plagued large-scale LLM serving since the dawn of GPT-3: tensor parallelism is static. When you deploy a 70B-parameter model across 8 GPUs, the model is sharded into fixed ch…

这起融资事件在“LLM inference priority scheduling benchmark comparison”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。