AI推理:硅谷旧规则为何在新战场上彻底失效

Hacker News May 2026
来源:Hacker NewsAI inference归档:May 2026
多年来,AI行业一直以为推理会遵循与训练相同的成本曲线。但我们的分析揭示了一个截然不同的现实:推理对延迟敏感、受内存带宽限制,并且需要一套全新的软硬件堆栈。这一转变正在重塑芯片设计、云定价以及整个AI商业模式。

长期以来,业界认为运行大模型与训练它一样便宜,这一假设正在实际部署的重压下崩塌。AI推理——模型真正响应用户的那一刻——遵循着截然不同的经济与技术逻辑。与训练不同,训练依赖批量处理且能容忍高延迟,而推理是一项实时、交互的任务。每一次查询都必须在毫秒级返回,迫使系统优先考虑内存带宽和低延迟计算,而非原始算力(FLOPS)。这引发了硬件市场的根本性分化:像H100这样为训练优化的芯片,在推理上表现不佳。新玩家——Groq、Cerebras以及定制ASIC设计公司——正因为理解推理需要全新架构而迅速崛起。与此同时,软件栈也在经历革命,vLLM、TensorRT-LLM和llama.cpp等项目正在重新定义推理引擎的标准。这场变革不仅关乎芯片,更将重塑云服务定价、AI应用部署策略,乃至整个行业的竞争格局。

技术深度解析

推理挑战的核心在于内存墙。在训练过程中,海量数据批次流经GPU,使计算单元保持饱和状态,瓶颈在于计算吞吐量。而在推理中,尤其是对于GPT-4或Llama 3这类自回归模型,过程是顺序的:一次生成一个token,使用前一个token的输出作为输入。这种串行依赖意味着GPU大部分时间都在等待从内存(HBM或GDDR)中获取数据,而非进行计算。关键指标从FLOPS转向了内存带宽和内存容量。

内存带宽瓶颈:

对于单次推理请求,模型权重必须在每个token生成步骤中从内存加载到计算单元。对于一个70B参数的FP16模型,权重大小为140GB。即使HBM3e提供约3.35 TB/s的带宽,加载权重的理论最小时间也是140 GB / 3.35 TB/s ≈ 42毫秒。再加上注意力计算、KV-cache读写和其他开销,延迟很快会超过100毫秒——这对于实时应用来说是不可接受的。这就是量化(INT8、FP8、FP4)和推测解码等技术存在的原因:它们减少了每个token的有效内存负载。

硬件分化:

传统GPU被设计为通用并行处理器。其庞大的SIMT核心和高带宽内存非常适合训练,但对于推理来说则有些大材小用。新的架构正在涌现以解决这一问题:

- Groq的LPU(语言处理单元): Groq通过使用确定性、软件定义的架构,以SRAM替代DRAM,消除了内存瓶颈。SRAM的延迟比HBM低10-20倍,但密度低得多。Groq的LPU通过高度流水线化的方式从SRAM中流式传输权重,实现了大模型的个位数毫秒级延迟。代价是成本:SRAM价格昂贵,扩展到非常大的模型需要多个LPU并行工作。

- Cerebras晶圆级引擎(WSE): Cerebras将整个硅晶圆(未切割)集成到一个处理器中。WSE-3拥有4万亿个晶体管和44 GB的片上SRAM,使整个模型能够驻留在芯片上。这完全消除了片外内存访问,显著降低了延迟。挑战在于热管理和软件兼容性;Cerebras构建了自己的编译器和运行时。

- 定制ASIC(例如Google TPU、Amazon Trainium/Inferentia): 这些是为特定工作负载量身定制的。例如,Google的TPU v5p拥有专用的MXU(矩阵乘法单元)和高带宽内存,但其推理效率通过批处理和模型分区得到提升。Amazon的Inferentia2采用定制的NeuronCore架构,带有用于本地权重存储的嵌入式SRAM,针对大规模低延迟推理进行了优化。

软件栈演进:

硬件只是成功的一半。软件栈也必须重新思考。推动这一变革的关键开源项目包括:

- vLLM(GitHub: vllm-project/vllm,约35k星标): 实现了PagedAttention,该技术将KV-cache管理在非连续的内存块中,减少了内存碎片并提高了吞吐量。它已成为许多部署的事实标准推理引擎。

- TensorRT-LLM(GitHub: NVIDIA/TensorRT-LLM,约10k星标): NVIDIA自家的推理优化库,提供图优化、内核融合和动态批处理。它与NVIDIA硬件紧密耦合。

- llama.cpp(GitHub: ggerganov/llama.cpp,约70k星标): 专注于CPU和低资源推理,使用整数量化(Q4_0、Q5_1等)和高效的内存映射。它使得在消费级硬件上运行大模型成为可能。

基准测试数据:

| 模型 | 硬件 | 批次大小 | 延迟 (ms/token) | 吞吐量 (tokens/s) | 成本 ($/1M tokens) |
|---|---|---|---|---|---|
| Llama 3 70B | NVIDIA H100 (8x) | 1 | 45 | 22 | $1.20 |
| Llama 3 70B | Groq LPU (1x) | 1 | 8 | 125 | $0.80 |
| Llama 3 70B | Cerebras WSE-3 | 1 | 12 | 83 | $0.65 |
| Llama 3 70B | AWS Inferentia2 | 1 | 30 | 33 | $0.90 |

数据要点: 对于单次请求,Groq和Cerebras的延迟比H100低3-5倍,成本降低20-45%。这是其以内存为中心的架构的直接结果。对于批量推理,H100的计算优势缩小了差距,但对于实时应用,新架构取得了决定性胜利。

关键玩家与案例研究

Groq: 由前Google TPU工程师创立,Groq将自己定位为低延迟冠军。其LPU架构现已通过GroqCloud提供,为Mixtral 8x7B和Llama 3 70B等模型提供低于10毫秒延迟的API访问。该公司已融资超过10亿美元,据称正在开发具有更高SRAM容量的下一代LPU。其战略很明确:占领聊天机器人、代码补全和语音助手等应用的实时推理市场。

Cerebras: 凭借其晶圆级引擎,Cerebras在推理领域开辟了独特的赛道。WSE-3的44 GB片上SRAM使其能够将整个Llama 3 70B模型(量化后)容纳在芯片上,无需访问外部内存。这带来了极低的延迟和可预测的性能。Cerebras已与制药和金融服务公司合作,用于需要低延迟和确定性计算的实时推理工作负载。其挑战在于软件生态系统的成熟度,以及如何说服客户从GPU迁移到其专有平台。

NVIDIA: 尽管H100在推理方面并非最优,但NVIDIA并未坐以待毙。其TensorRT-LLM库和即将推出的Blackwell架构(B100/B200)引入了专门针对推理的改进,如更大的SRAM缓存和更高效的内存带宽利用率。NVIDIA的策略是继续利用其软件生态系统(CUDA、TensorRT)的粘性,同时通过硬件迭代缩小差距。然而,随着专用推理芯片的崛起,NVIDIA在推理市场的份额面临压力。

云服务提供商: AWS、Google Cloud和Microsoft Azure都在构建自己的推理基础设施。AWS的Inferentia2和Trainium2、Google的TPU v5p以及Microsoft的Maia 100都是针对推理优化的定制芯片。这些云巨头正在将推理能力作为差异化服务提供,通过自研芯片降低对NVIDIA的依赖,并优化成本结构。

更多来自 Hacker News

白宫下令OpenAI分阶段发布模型:AI监管进入新纪元白宫已正式要求OpenAI对其即将推出的下一代AI模型实施分阶段发布,这是美国政府首次直接干预前沿AI系统的部署节奏。这一指令通过闭门会议和政策备忘录传达,实际上结束了行业自愿自我治理的时代。根据新框架,OpenAI将首先将模型发布给一批政AI计费革命:按能量付费取代Token计费,成本直降83%AI行业正在经历推理成本计量与计费方式的范式转变。多年来,按Token计费一直是主导模式,用户为模型输出的每个单词或子词付费。这种方法虽然简单,却造成了根本性的错配:一个简单的单字答案与复杂的多步推理链,若输出长度相近,成本竟完全相同。如今LLM裁判需要审计:一款轻量级工具曝光AI评估的致命盲区一位开发者近日发布了一款开源审计工具,为日益流行的“LLM-as-judge”评估范式带来了透明度。该工具通过拦截评分流程,将其拆解为三个独立步骤:提取被评估的声明、识别裁判LLM用于支持其决策的证据、记录最终裁决。任何缺乏充分证据支持的裁查看来源专题页Hacker News 已收录 5249 篇文章

相关专题

AI inference30 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

OpenAI与博通联手定制芯片,改写AI推理的经济学规则OpenAI与博通联合推出专为大语言模型推理设计的定制芯片,直击通用GPU在内存带宽与延迟上的核心瓶颈。这一合作标志着AI硬件从训练中心架构向推理优化架构的根本性转变,旨在大幅降低AI模型服务的单位成本,并解锁全新的实时应用场景。密集CPU机架悄然赢得AI智能体推理竞赛当业界痴迷于GPU集群时,一场务实的革命正在发生。AINews发现,基于商用组件的密集CPU机架正成为智能体AI推理的优越架构,挑战了只有GPU才能驱动自主系统的传统叙事。Token狂欢后的宿醉:AI的真实成本清算才刚刚开始无限生成Token的派对已经结束。AINews独家揭示,大规模推理的真实运营与能源成本一直被风险投资所掩盖。随着资金枯竭,一场残酷的成本清算即将到来,它将重塑整个AI行业。DualPath架构突破AI智能体推理的存储带宽瓶颈全新架构DualPath打破了限制AI智能体推理的存储带宽“铁幕”。通过将键值缓存存储与计算路径分离,它实现了8倍吞吐量提升和5倍延迟降低,为自主智能体解锁了实时、长上下文的推理能力。

常见问题

这次模型发布“AI Inference: Why Silicon Valley's Old Rules No Longer Apply to the New Battlefield”的核心内容是什么?

The long-held assumption that running a large model is as cheap as training it is collapsing under the weight of real-world deployment. AI inference—the moment a model actually res…

从“AI inference cost per token comparison 2025”看,这个模型发布为什么重要?

The core of the inference challenge lies in the memory wall. During training, massive batches of data flow through the GPU, keeping compute units saturated. The bottleneck is compute throughput. In inference, especially…

围绕“Groq LPU vs NVIDIA H100 inference latency benchmark”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。