技术深度解析
AI Foundry 的服务构建于 NVIDIA Blackwell GPU 架构之上,这是一款专用推理加速器,相比前代 Hopper 实现了代际飞跃。Blackwell B200 GPU 采用双芯片设计,拥有 2080 亿个晶体管,通过高速 NVLink-C2C 互连,可提供高达 20 petaFLOPS 的 FP4 推理性能。该架构专门针对基于 Transformer 的模型进行了优化,集成了第二代 Transformer Engine,可在 FP8 和 FP4 之间动态管理精度,从而在不牺牲准确性的前提下最大化吞吐量。
在推理服务方面,AI Foundry 很可能采用了多实例 GPU(MIG)分区策略,并结合动态批处理,以最大化订阅用户间的利用率。订阅模式需要复杂的速率限制和公平调度机制,以防止任何单个用户垄断资源。这是一个重大的工程挑战:与每个请求独立计量的按 token 计费不同,固定费用模式必须确保所有并发用户的服务质量(QoS),同时防止滥用。
从延迟角度来看,Blackwell 的 NVLink 5.0 为每个 GPU 提供了 1.8 TB/s 的双向带宽,使得大型 LLM 的高效模型并行成为可能。对于 Llama 3 70B 或 Mixtral 8x22B 这类模型,跨多个 Blackwell GPU 的张量并行可以在处理少于 2000 个 token 的提示时,实现低于 100 毫秒的首 token 生成时间(TTFT)。然而,在来自多个订阅用户的持续负载下,尾延迟成为一个问题。AI Foundry 必须实施积极的请求排队和抢占机制,以维持一致的性能。
| 指标 | Blackwell B200 (FP4) | H100 SXM (FP8) | 提升幅度 |
|--------|---------------------|----------------|-------------|
| 峰值 TFLOPS | 20,000 | 1,979 | 10.1x |
| 内存带宽 | 8 TB/s | 3.35 TB/s | 2.4x |
| TDP | 700W | 700W | 相同 |
| NVLink 带宽 | 1.8 TB/s | 900 GB/s | 2x |
| 推荐模型规模 | 最高 1T 参数 | 最高 175B 参数 | — |
数据解读: Blackwell 在 FP4 性能上的优势是巨大的,但实际推理吞吐量取决于模型量化支持和批处理效率。10 倍的峰值 TFLOPS 数字是理论值;对于生产级 LLM 服务,相对于 H100 的实际增益可能在 3-5 倍之间,具体取决于工作负载。
一个关键的开源参考是 vLLM 项目(GitHub: vllm-project/vllm,45k+ 星标),它提供了一个高吞吐量的服务引擎,并采用 PagedAttention 实现高效的 KV 缓存管理。AI Foundry 可能正在使用 vLLM 的自定义分支或类似基础设施(例如 TensorRT-LLM)来处理订阅模型的动态负载。PagedAttention 算法可将内存碎片减少高达 95%,这对于在固定 GPU 内存上最大化并发用户容量至关重要。
关键参与者与案例研究
AI Foundry 本身在 AI 基础设施领域是一个相对较小的参与者,总部位于新西兰,专注于主权 AI 能力。该公司此前提供 GPU 租赁服务,但此次订阅模式是其最具颠覆性的举措。选择新西兰具有战略意义:该国拥有一个不断发展的 AI 初创生态系统(例如 Soul Machines、Orion Health),并且能源成本相对较低,使其成为数据中心运营的可行地点。
主要的竞争格局包括:
- Together AI:提供按 token 计费的无服务器推理,但最近为高用量用户推出了“专用端点”订阅服务。他们对 Llama 3 70B 的定价约为每百万 token 1.20 美元。
- Fireworks AI:提供按需付费的快速推理服务,针对延迟敏感型应用。他们尚未采用固定费率定价。
- Groq:使用定制 LPU 硬件实现超低延迟,但按 token 收费。其硬件不适用于订阅式的无限使用。
- Replicate:为社区模型提供按 token 和按秒计费的混合模式,但没有无限层级。
| 提供商 | 定价模式 | 基础硬件 | 延迟 (Llama 3 70B, TTFT) | 每日 1000 万 token 成本 |
|----------|---------------|---------------|----------------------------|-------------------------|
| AI Foundry | 固定月费(估计约 5000 美元) | Blackwell B200 | <100ms(声称) | 5000 美元(固定) |
| Together AI | 1.20 美元/百万 token | H100 | 150-200ms | 12,000 美元 |
| Fireworks AI | 0.90 美元/百万 token | H100 | 120-180ms | 9,000 美元 |
| Groq | 0.60 美元/百万 token | LPU | <10ms | 6,000 美元 |
数据解读: 对于每日生成超过约 800 万 token 的用户,AI Foundry 的订阅模式比按 token 计费的替代方案更便宜。然而,Groq 的 LPU 提供了卓越的延迟,这对于语音助手或自主智能体等实时应用可能至关重要。
一个值得注意的案例是 Hugging Face 等平台上的开发者社区,每天有数千个模型在那里进行测试。一个运行多个实验的单个开发者,很容易