分布式LLM推理撞上开放互联网的硬天花板

Hacker News May 2026
来源:Hacker Newsdecentralized AI归档:May 2026
在全球志愿者节点网络上运行大语言模型推理的梦想,正撞上残酷的工程现实。AINews分析表明,开放互联网异步、尽力而为的本质,与LLM推理对同步、低延迟执行的严苛要求根本冲突,在延迟、带宽和信任三大维度上形成了难以逾越的瓶颈。

分布式LLM推理——即任何人都可以贡献算力协作运行大语言模型——是一个令人振奋的AI民主化愿景。但开放互联网,这个为文件共享和网页浏览而设计的网络,在结构上根本无法满足现代LLM推理的实时性要求。核心矛盾在于互联网异步、尽力而为的数据包投递机制,与张量并行和流水线并行所要求的同步、低延迟特性之间的根本对立。异构节点间的延迟抖动会以不可预测的方式叠加放大,而家庭宽带的上行带宽(通常仅10-50 Mbps)在传输模型激活值时成为严重瓶颈。更糟糕的是,验证远程节点是否正确执行了分配的计算任务,需要依赖密码学证明或冗余计算,这进一步加剧了开销。

技术深度解析

分布式LLM推理与开放互联网之间的根本性矛盾,可以拆解为四个相互关联的工程约束:延迟抖动、带宽不对称、同步开销和信任验证。

延迟抖动与同步税

LLM推理,尤其是自回归解码,本质上是顺序执行的。每个token的生成步骤都依赖于前一个token。当使用张量并行(将单层计算拆分到多个设备)或流水线并行(将不同层拆分到多个设备)将推理分布到多个节点时,每一次前向传播都需要多次all-reduce或点对点通信。在配备InfiniBand(延迟1-10微秒)的专用集群上,这尚可管理。但在开放互联网上,节点间的往返时间(RTT)可能从10毫秒到超过500毫秒不等,而抖动(延迟的标准差)往往超过均值的50%。

以70B参数模型为例,使用4节点张量并行。每个Transformer层需要两次all-reduce操作(一次用于注意力机制,一次用于前馈网络)。80层意味着每个token需要160次all-reduce。如果每次all-reduce增加20毫秒的网络延迟(对于跨洲链路已属乐观估计),那么每个token的总延迟将超过3.2秒——这对于交互式应用完全不可接受。落后节点效应(straggler effect)会进一步放大问题:一个慢节点迫使所有其他节点等待,而在开放互联网上,最慢的节点往往比中位数节点慢一个数量级。

带宽不对称

家庭互联网连接本质上是非对称的。典型的FTTH(光纤到户)提供1 Gbps下行,但上行仅50-100 Mbps。有线电视网络更差:200 Mbps下行,10-20 Mbps上行。对于分布式推理,上行带宽是关键路径,因为节点必须向对等节点发送激活值和梯度。对于70B模型,隐藏维度为4096,使用FP16精度,单个Transformer层的隐藏状态大小为每个token 8 KB。80层、4节点的情况下,每个节点每个token需要上传约160 KB。以50 Mbps上行带宽计算,仅数据传输就需要25毫秒——这还不包括任何计算或同步开销。

| 网络类型 | 下行速度 | 上行速度 | 延迟(RTT) | 每层每token延迟(4节点) |
|---|---|---|---|---|
| 专用集群(InfiniBand) | 200 Gbps | 200 Gbps | 1 μs | 0.1 ms |
| 家庭光纤 | 1 Gbps | 100 Mbps | 10 ms | 25 ms |
| 家庭有线电视 | 200 Mbps | 20 Mbps | 20 ms | 80 ms |
| 移动5G | 100 Mbps | 20 Mbps | 30 ms | 100 ms |

数据要点: 专用基础设施与家庭互联网之间,每个token的延迟差距高达250倍到1000倍,这使得在开放互联网上进行实时分布式推理对交互式应用而言完全不切实际。

信任验证开销

在去中心化网络中,如何确保远程节点确实正确执行了矩阵乘法?朴素的方法——在多个节点上冗余执行——会使计算成本翻倍或三倍。zk-SNARKs或zk-STARKs等密码学方法可以证明正确执行,但为单个Transformer层生成证明目前需要GPU运行数分钟,远超实际计算所需的毫秒级时间。乐观验证(随机抽查部分节点)降低了开销,但引入了概率性保证,不适用于安全关键型应用。Petals项目通过使用信誉系统和冗余来规避这个问题,但这仅适用于小型、可信的网络。

值得关注的GitHub仓库:
- Petals (github.com/bigscience-workshop/petals):一个去中心化平台,用于在志愿者节点上运行BLOOM等LLM。采用流水线并行并具备容错能力。4.5k星。近期工作聚焦于改进落后节点处理。
- Hivemind (github.com/learning-at-home/hivemind):Petals所使用的底层去中心化深度学习库。实现了去中心化平均和容错all-reduce。2.1k星。
- FlexGen (github.com/FMInference/FlexGen):专注于将模型卸载到CPU/NVMe进行单节点推理,但其调度见解同样适用于分布式场景。1.8k星。

关键参与者与案例研究

Petals(BigScience Workshop)

开放互联网分布式推理最著名的尝试。Petals允许用户贡献GPU算力来服务176B参数的BLOOM模型。在实践中,它在理想情况下为单个用户实现每秒1-2个token的生成速度——远低于实时聊天所需的每秒50+ token。项目自身的基准测试表明,节点数超过4个后,通信开销会导致吞吐量下降。

Together AI 与 Fireworks AI

这些公司也运营分布式推理,但使用的是受控的高带宽基础设施(配备RDMA的专用数据中心)。它们通过专有调度和模型并行优化实现了有竞争力的延迟,但它们并非开放互联网——它们是私有集群。

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

相关专题

decentralized AI60 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

HSIP:用Rust为AI代理打造数字身份革命一个名为HSIP的全新开源项目,正借助Rust语言构建本地身份服务器,通过Ed25519签名赋予AI代理可验证的数字身份。这项密码学创新直击去中心化自治系统的核心信任难题,有望成为新兴代理经济的基础设施基石。共生协议草案:一份让AI代理真正服务于用户的本地优先蓝图一份名为“共生协议”的新草案提出了一项激进变革:AI代理应在用户设备上本地运行,完全忠于用户而非云平台。这一蓝图挑战了主流的AI商业模式,并可能重新定义信任、数据所有权以及数字经济的格局。本地AI模型宣称击败GPT-5.5与Opus 4.7:去中心化迎来转折点?一款本地运行的AI模型公开宣称在关键基准测试中超越GPT-5.5和Opus 4.7,挑战了“顶级性能必须依赖云端算力”的主流逻辑。这一进展标志着AI去中心化可能迎来转折点——小型私有模型正与云端巨头展开正面竞争。AI智能体告别中央控制:Stigmergy将蚁群逻辑引入多智能体工作流一个名为Stigmergy的全新开源框架正在颠覆多智能体AI协作模式。智能体不再彼此对话或遵循僵化的集中式工作流,而是在共享环境中留下“数字信息素”,实现模仿蚁群的自组织。这标志着从设计脆弱的流水线到培育自适应生态系统的转变。

常见问题

这篇关于“Distributed LLM Inference Hits the Open Internet's Hard Limits”的文章讲了什么?

Distributed LLM inference—the idea that anyone can contribute compute to run a large language model collaboratively—is an inspiring vision for democratizing AI. But the open intern…

从“Why Petals distributed inference is slow”看,这件事为什么值得关注?

The fundamental tension between distributed LLM inference and the open internet can be broken down into four interconnected engineering constraints: latency jitter, bandwidth asymmetry, synchronization overhead, and trus…

如果想继续追踪“Open internet latency jitter impact on AI”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。