AI Foundry 推出无限推理订阅服务，或颠覆大模型定价模式

Q: 围绕“unlimited LLM inference performance under load”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

2026年5月18日 15:37 AINews Hacker News May 2026

AI Foundry 推出了一项基于 NVIDIA Blackwell GPU 的固定月费无限 LLM 推理订阅服务，直接挑战当前主流的按 token 计费模式。此举瞄准了需要高频 AI 工作负载且追求可预测成本的开发者和企业，可能标志着 AI 领域向基础设施即服务定价模式的转变。

AI Foundry 大胆背离行业标准的按 token 付费模式，推出了由 NVIDIA Blackwell GPU 驱动的无限推理订阅服务。这家总部位于新西兰的公司，为开发者和企业提供固定月费、无限制访问大语言模型推理的权限，实际上将成本与使用量脱钩。该模式直接解决了不可预测的 API 账单这一痛点，这种账单往往抑制了实验和大规模部署。通过利用 Blackwell 专为低延迟推理设计的架构，AI Foundry 瞄准了实时智能体工作流、对话式 AI 以及其他对延迟敏感的应用。订阅定价代表了对推理计算商品化的一场豪赌，这类似于基础设施即服务（IaaS）在云计算领域的演变路径。

技术深度解析

AI Foundry 的服务构建于 NVIDIA Blackwell GPU 架构之上，这是一款专用推理加速器，相比前代 Hopper 实现了代际飞跃。Blackwell B200 GPU 采用双芯片设计，拥有 2080 亿个晶体管，通过高速 NVLink-C2C 互连，可提供高达 20 petaFLOPS 的 FP4 推理性能。该架构专门针对基于 Transformer 的模型进行了优化，集成了第二代 Transformer Engine，可在 FP8 和 FP4 之间动态管理精度，从而在不牺牲准确性的前提下最大化吞吐量。

在推理服务方面，AI Foundry 很可能采用了多实例 GPU（MIG）分区策略，并结合动态批处理，以最大化订阅用户间的利用率。订阅模式需要复杂的速率限制和公平调度机制，以防止任何单个用户垄断资源。这是一个重大的工程挑战：与每个请求独立计量的按 token 计费不同，固定费用模式必须确保所有并发用户的服务质量（QoS），同时防止滥用。

从延迟角度来看，Blackwell 的 NVLink 5.0 为每个 GPU 提供了 1.8 TB/s 的双向带宽，使得大型 LLM 的高效模型并行成为可能。对于 Llama 3 70B 或 Mixtral 8x22B 这类模型，跨多个 Blackwell GPU 的张量并行可以在处理少于 2000 个 token 的提示时，实现低于 100 毫秒的首 token 生成时间（TTFT）。然而，在来自多个订阅用户的持续负载下，尾延迟成为一个问题。AI Foundry 必须实施积极的请求排队和抢占机制，以维持一致的性能。

| 指标 | Blackwell B200 (FP4) | H100 SXM (FP8) | 提升幅度 |
|--------|---------------------|----------------|-------------|
| 峰值 TFLOPS | 20,000 | 1,979 | 10.1x |
| 内存带宽 | 8 TB/s | 3.35 TB/s | 2.4x |
| TDP | 700W | 700W | 相同 |
| NVLink 带宽 | 1.8 TB/s | 900 GB/s | 2x |
| 推荐模型规模 | 最高 1T 参数 | 最高 175B 参数 | — |

数据解读： Blackwell 在 FP4 性能上的优势是巨大的，但实际推理吞吐量取决于模型量化支持和批处理效率。10 倍的峰值 TFLOPS 数字是理论值；对于生产级 LLM 服务，相对于 H100 的实际增益可能在 3-5 倍之间，具体取决于工作负载。

一个关键的开源参考是 vLLM 项目（GitHub: vllm-project/vllm，45k+ 星标），它提供了一个高吞吐量的服务引擎，并采用 PagedAttention 实现高效的 KV 缓存管理。AI Foundry 可能正在使用 vLLM 的自定义分支或类似基础设施（例如 TensorRT-LLM）来处理订阅模型的动态负载。PagedAttention 算法可将内存碎片减少高达 95%，这对于在固定 GPU 内存上最大化并发用户容量至关重要。

关键参与者与案例研究

AI Foundry 本身在 AI 基础设施领域是一个相对较小的参与者，总部位于新西兰，专注于主权 AI 能力。该公司此前提供 GPU 租赁服务，但此次订阅模式是其最具颠覆性的举措。选择新西兰具有战略意义：该国拥有一个不断发展的 AI 初创生态系统（例如 Soul Machines、Orion Health），并且能源成本相对较低，使其成为数据中心运营的可行地点。

主要的竞争格局包括：

- Together AI：提供按 token 计费的无服务器推理，但最近为高用量用户推出了“专用端点”订阅服务。他们对 Llama 3 70B 的定价约为每百万 token 1.20 美元。
- Fireworks AI：提供按需付费的快速推理服务，针对延迟敏感型应用。他们尚未采用固定费率定价。
- Groq：使用定制 LPU 硬件实现超低延迟，但按 token 收费。其硬件不适用于订阅式的无限使用。
- Replicate：为社区模型提供按 token 和按秒计费的混合模式，但没有无限层级。

| 提供商 | 定价模式 | 基础硬件 | 延迟 (Llama 3 70B, TTFT) | 每日 1000 万 token 成本 |
|----------|---------------|---------------|----------------------------|-------------------------|
| AI Foundry | 固定月费（估计约 5000 美元） | Blackwell B200 | <100ms（声称） | 5000 美元（固定） |
| Together AI | 1.20 美元/百万 token | H100 | 150-200ms | 12,000 美元 |
| Fireworks AI | 0.90 美元/百万 token | H100 | 120-180ms | 9,000 美元 |
| Groq | 0.60 美元/百万 token | LPU | <10ms | 6,000 美元 |

数据解读： 对于每日生成超过约 800 万 token 的用户，AI Foundry 的订阅模式比按 token 计费的替代方案更便宜。然而，Groq 的 LPU 提供了卓越的延迟，这对于语音助手或自主智能体等实时应用可能至关重要。

一个值得注意的案例是 Hugging Face 等平台上的开发者社区，每天有数千个模型在那里进行测试。一个运行多个实验的单个开发者，很容易

常见问题

这次公司发布“AI Foundry's Infinite Inference Subscription Could Upend LLM Pricing Models”主要讲了什么？

In a bold departure from the industry-standard pay-per-token model, AI Foundry has introduced an unlimited inference subscription service powered by NVIDIA's Blackwell GPUs. Based…

从“AI Foundry Blackwell GPU subscription pricing details”看，这家公司的这次发布为什么值得关注？

AI Foundry's service is built around NVIDIA's Blackwell GPU architecture, a purpose-built inference accelerator that represents a generational leap over its predecessor, Hopper. The Blackwell B200 GPU features a dual-die…

围绕“unlimited LLM inference performance under load”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

AI Foundry 推出无限推理订阅服务，或颠覆大模型定价模式

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题