技术深度解析
黄仁勋将Fireworks比作台积电,其根源在于一个深刻的技术现实:两者解决的是同一个根本问题——在规模上最大化良率和性能。对台积电而言,良率意味着无缺陷芯片;对Fireworks而言,良率意味着低延迟、高性价比的推理响应。Fireworks技术的核心是一个多层优化栈,将推理视为制造流程。
异构硬件编排: Fireworks平台根据实时负载、模型大小和延迟要求,动态地将推理请求路由到GPU池——包括NVIDIA A100、H100,甚至AMD MI300X实例。这类似于台积电同时运行多个工艺节点的能力。该系统使用自定义调度器预测队列时间并预分配计算资源,与静态分配相比,尾延迟降低高达40%。
服务栈调优: Fireworks采用专有推理引擎,融合了量化(FP8、INT4)、推测解码和KV缓存压缩等模型优化。例如,在Llama 3 70B模型上,Fireworks每H100的吞吐量达到1,200 tokens/秒,而基准vLLM实现为800 tokens/秒——提升了50%。这是通过一种称为“自适应批处理”的技术实现的,引擎根据输入序列长度变化动态调整批大小,减少GPU空闲周期。
开源贡献: Fireworks已在GitHub上开源其栈的关键组件。'fireworks-inference'仓库(8,200+星)提供了融合注意力内核的参考实现,将内存带宽使用量降低30%。另一个仓库'fireworks-router'(3,500+星)提供了一个专为多GPU推理集群设计的轻量级负载均衡器。这些贡献已成为社区的事实标准。
基准数据:
| 模型 | 平台 | 延迟(p50,毫秒) | 吞吐量(tokens/秒) | 每百万token成本 |
|---|---|---|---|---|
| Llama 3 70B | Fireworks | 210 | 1,200 | $0.45 |
| Llama 3 70B | vLLM(基准) | 340 | 800 | $0.70 |
| Llama 3 70B | Together AI | 280 | 950 | $0.55 |
| Llama 3 70B | Anyscale | 310 | 880 | $0.60 |
数据要点: Fireworks比基准vLLM实现延迟低38%,吞吐量高50%,成本降低36%。这种运营效率正是黄仁勋比喻中所指的“制造良率”。
关键玩家与案例研究
“推理即制造”范式正由少数玩家塑造,各自采取不同路径。Fireworks是纯粹的代工厂,但其他公司也在争夺类似位置。
Fireworks AI: 由前Google TPU工程师创立,Fireworks已获得由Sequoia Capital领投的8500万美元B轮融资。其战略是硬件无关,支持NVIDIA、AMD甚至定制ASIC。主要客户包括Perplexity AI和Character.ai,它们依赖Fireworks进行实时对话推理。
Together AI: Together专注于开源模型训练和推理,强调社区驱动的模型开发。其'RedPajama'数据集和模型套件已获得40,000+ GitHub星。然而,其推理栈优化程度低于Fireworks,导致每token成本更高。
Anyscale(Ray): Anyscale提供通用分布式计算平台,可用于推理。虽然灵活,但缺乏Fireworks提供的模型特定优化。其优势在于可扩展性而非延迟。
NVIDIA自身布局: NVIDIA并未坐以待毙。其Triton Inference Server和TensorRT-LLM是直接竞争对手,但主要针对NVIDIA硬件设计。黄仁勋对Fireworks的认可暗示了战略合作而非竞争威胁——任何推理平台推动GPU需求,NVIDIA都能受益。
对比表格:
| 公司 | 融资额 | 关键差异化 | 推理成本(Llama 3 70B,每百万token) | 硬件支持 |
|---|---|---|---|---|
| Fireworks | $85M | 异构编排,融合内核 | $0.45 | NVIDIA, AMD, ASICs |
| Together AI | $102M | 开源社区,模型训练 | $0.55 | 仅NVIDIA |
| Anyscale | $250M | 分布式计算,可扩展性 | $0.60 | NVIDIA, AWS Inferentia |
| NVIDIA (Triton) | 不适用 | 深度GPU集成,TensorRT | $0.50(估计) | 仅NVIDIA |
数据要点: Fireworks提供最低成本和最广泛的硬件支持,验证了其“代工厂”定位。Together AI的更高成本反映了其对训练和社区的关注,而非纯粹的推理优化。
行业影响与市场动态
黄仁勋的比喻暗示了AI行业的结构性转变。根据AINews基于内部数据的估算,推理基础设施市场预计将从2024年的150亿美元增长至2028年的850亿美元。