AI推理：硅谷旧规则为何在新战场上彻底失效

长期以来，业界认为运行大模型与训练它一样便宜，这一假设正在实际部署的重压下崩塌。AI推理——模型真正响应用户的那一刻——遵循着截然不同的经济与技术逻辑。与训练不同，训练依赖批量处理且能容忍高延迟，而推理是一项实时、交互的任务。每一次查询都必须在毫秒级返回，迫使系统优先考虑内存带宽和低延迟计算，而非原始算力（FLOPS）。这引发了硬件市场的根本性分化：像H100这样为训练优化的芯片，在推理上表现不佳。新玩家——Groq、Cerebras以及定制ASIC设计公司——正因为理解推理需要全新架构而迅速崛起。与此同时，软件栈也在经历革命，vLLM、TensorRT-LLM和llama.cpp等项目正在重新定义推理引擎的标准。这场变革不仅关乎芯片，更将重塑云服务定价、AI应用部署策略，乃至整个行业的竞争格局。

技术深度解析

推理挑战的核心在于内存墙。在训练过程中，海量数据批次流经GPU，使计算单元保持饱和状态，瓶颈在于计算吞吐量。而在推理中，尤其是对于GPT-4或Llama 3这类自回归模型，过程是顺序的：一次生成一个token，使用前一个token的输出作为输入。这种串行依赖意味着GPU大部分时间都在等待从内存（HBM或GDDR）中获取数据，而非进行计算。关键指标从FLOPS转向了内存带宽和内存容量。

内存带宽瓶颈：

对于单次推理请求，模型权重必须在每个token生成步骤中从内存加载到计算单元。对于一个70B参数的FP16模型，权重大小为140GB。即使HBM3e提供约3.35 TB/s的带宽，加载权重的理论最小时间也是140 GB / 3.35 TB/s ≈ 42毫秒。再加上注意力计算、KV-cache读写和其他开销，延迟很快会超过100毫秒——这对于实时应用来说是不可接受的。这就是量化（INT8、FP8、FP4）和推测解码等技术存在的原因：它们减少了每个token的有效内存负载。

硬件分化：

传统GPU被设计为通用并行处理器。其庞大的SIMT核心和高带宽内存非常适合训练，但对于推理来说则有些大材小用。新的架构正在涌现以解决这一问题：

- Groq的LPU（语言处理单元）： Groq通过使用确定性、软件定义的架构，以SRAM替代DRAM，消除了内存瓶颈。SRAM的延迟比HBM低10-20倍，但密度低得多。Groq的LPU通过高度流水线化的方式从SRAM中流式传输权重，实现了大模型的个位数毫秒级延迟。代价是成本：SRAM价格昂贵，扩展到非常大的模型需要多个LPU并行工作。

- Cerebras晶圆级引擎（WSE）： Cerebras将整个硅晶圆（未切割）集成到一个处理器中。WSE-3拥有4万亿个晶体管和44 GB的片上SRAM，使整个模型能够驻留在芯片上。这完全消除了片外内存访问，显著降低了延迟。挑战在于热管理和软件兼容性；Cerebras构建了自己的编译器和运行时。

- 定制ASIC（例如Google TPU、Amazon Trainium/Inferentia）： 这些是为特定工作负载量身定制的。例如，Google的TPU v5p拥有专用的MXU（矩阵乘法单元）和高带宽内存，但其推理效率通过批处理和模型分区得到提升。Amazon的Inferentia2采用定制的NeuronCore架构，带有用于本地权重存储的嵌入式SRAM，针对大规模低延迟推理进行了优化。

软件栈演进：

硬件只是成功的一半。软件栈也必须重新思考。推动这一变革的关键开源项目包括：

- vLLM（GitHub: vllm-project/vllm，约35k星标）： 实现了PagedAttention，该技术将KV-cache管理在非连续的内存块中，减少了内存碎片并提高了吞吐量。它已成为许多部署的事实标准推理引擎。

- TensorRT-LLM（GitHub: NVIDIA/TensorRT-LLM，约10k星标）： NVIDIA自家的推理优化库，提供图优化、内核融合和动态批处理。它与NVIDIA硬件紧密耦合。

- llama.cpp（GitHub: ggerganov/llama.cpp，约70k星标）： 专注于CPU和低资源推理，使用整数量化（Q4_0、Q5_1等）和高效的内存映射。它使得在消费级硬件上运行大模型成为可能。

基准测试数据：

| 模型 | 硬件 | 批次大小 | 延迟 (ms/token) | 吞吐量 (tokens/s) | 成本 ($/1M tokens) |
|---|---|---|---|---|---|
| Llama 3 70B | NVIDIA H100 (8x) | 1 | 45 | 22 | $1.20 |
| Llama 3 70B | Groq LPU (1x) | 1 | 8 | 125 | $0.80 |
| Llama 3 70B | Cerebras WSE-3 | 1 | 12 | 83 | $0.65 |
| Llama 3 70B | AWS Inferentia2 | 1 | 30 | 33 | $0.90 |

数据要点： 对于单次请求，Groq和Cerebras的延迟比H100低3-5倍，成本降低20-45%。这是其以内存为中心的架构的直接结果。对于批量推理，H100的计算优势缩小了差距，但对于实时应用，新架构取得了决定性胜利。

关键玩家与案例研究

Groq： 由前Google TPU工程师创立，Groq将自己定位为低延迟冠军。其LPU架构现已通过GroqCloud提供，为Mixtral 8x7B和Llama 3 70B等模型提供低于10毫秒延迟的API访问。该公司已融资超过10亿美元，据称正在开发具有更高SRAM容量的下一代LPU。其战略很明确：占领聊天机器人、代码补全和语音助手等应用的实时推理市场。

Cerebras： 凭借其晶圆级引擎，Cerebras在推理领域开辟了独特的赛道。WSE-3的44 GB片上SRAM使其能够将整个Llama 3 70B模型（量化后）容纳在芯片上，无需访问外部内存。这带来了极低的延迟和可预测的性能。Cerebras已与制药和金融服务公司合作，用于需要低延迟和确定性计算的实时推理工作负载。其挑战在于软件生态系统的成熟度，以及如何说服客户从GPU迁移到其专有平台。

NVIDIA： 尽管H100在推理方面并非最优，但NVIDIA并未坐以待毙。其TensorRT-LLM库和即将推出的Blackwell架构（B100/B200）引入了专门针对推理的改进，如更大的SRAM缓存和更高效的内存带宽利用率。NVIDIA的策略是继续利用其软件生态系统（CUDA、TensorRT）的粘性，同时通过硬件迭代缩小差距。然而，随着专用推理芯片的崛起，NVIDIA在推理市场的份额面临压力。

云服务提供商： AWS、Google Cloud和Microsoft Azure都在构建自己的推理基础设施。AWS的Inferentia2和Trainium2、Google的TPU v5p以及Microsoft的Maia 100都是针对推理优化的定制芯片。这些云巨头正在将推理能力作为差异化服务提供，通过自研芯片降低对NVIDIA的依赖，并优化成本结构。

时间归档

延伸阅读

常见问题

这次模型发布“AI Inference: Why Silicon Valley's Old Rules No Longer Apply to the New Battlefield”的核心内容是什么？

The long-held assumption that running a large model is as cheap as training it is collapsing under the weight of real-world deployment. AI inference—the moment a model actually res…

从“AI inference cost per token comparison 2025”看，这个模型发布为什么重要？

The core of the inference challenge lies in the memory wall. During training, massive batches of data flow through the GPU, keeping compute units saturated. The bottleneck is compute throughput. In inference, especially…

围绕“Groq LPU vs NVIDIA H100 inference latency benchmark”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。