AI Foundry 推出无限推理订阅服务,或颠覆大模型定价模式

Hacker News May 2026
来源:Hacker News归档:May 2026
AI Foundry 推出了一项基于 NVIDIA Blackwell GPU 的固定月费无限 LLM 推理订阅服务,直接挑战当前主流的按 token 计费模式。此举瞄准了需要高频 AI 工作负载且追求可预测成本的开发者和企业,可能标志着 AI 领域向基础设施即服务定价模式的转变。

AI Foundry 大胆背离行业标准的按 token 付费模式,推出了由 NVIDIA Blackwell GPU 驱动的无限推理订阅服务。这家总部位于新西兰的公司,为开发者和企业提供固定月费、无限制访问大语言模型推理的权限,实际上将成本与使用量脱钩。该模式直接解决了不可预测的 API 账单这一痛点,这种账单往往抑制了实验和大规模部署。通过利用 Blackwell 专为低延迟推理设计的架构,AI Foundry 瞄准了实时智能体工作流、对话式 AI 以及其他对延迟敏感的应用。订阅定价代表了对推理计算商品化的一场豪赌,这类似于基础设施即服务(IaaS)在云计算领域的演变路径。

技术深度解析

AI Foundry 的服务构建于 NVIDIA Blackwell GPU 架构之上,这是一款专用推理加速器,相比前代 Hopper 实现了代际飞跃。Blackwell B200 GPU 采用双芯片设计,拥有 2080 亿个晶体管,通过高速 NVLink-C2C 互连,可提供高达 20 petaFLOPS 的 FP4 推理性能。该架构专门针对基于 Transformer 的模型进行了优化,集成了第二代 Transformer Engine,可在 FP8 和 FP4 之间动态管理精度,从而在不牺牲准确性的前提下最大化吞吐量。

在推理服务方面,AI Foundry 很可能采用了多实例 GPU(MIG)分区策略,并结合动态批处理,以最大化订阅用户间的利用率。订阅模式需要复杂的速率限制和公平调度机制,以防止任何单个用户垄断资源。这是一个重大的工程挑战:与每个请求独立计量的按 token 计费不同,固定费用模式必须确保所有并发用户的服务质量(QoS),同时防止滥用。

从延迟角度来看,Blackwell 的 NVLink 5.0 为每个 GPU 提供了 1.8 TB/s 的双向带宽,使得大型 LLM 的高效模型并行成为可能。对于 Llama 3 70B 或 Mixtral 8x22B 这类模型,跨多个 Blackwell GPU 的张量并行可以在处理少于 2000 个 token 的提示时,实现低于 100 毫秒的首 token 生成时间(TTFT)。然而,在来自多个订阅用户的持续负载下,尾延迟成为一个问题。AI Foundry 必须实施积极的请求排队和抢占机制,以维持一致的性能。

| 指标 | Blackwell B200 (FP4) | H100 SXM (FP8) | 提升幅度 |
|--------|---------------------|----------------|-------------|
| 峰值 TFLOPS | 20,000 | 1,979 | 10.1x |
| 内存带宽 | 8 TB/s | 3.35 TB/s | 2.4x |
| TDP | 700W | 700W | 相同 |
| NVLink 带宽 | 1.8 TB/s | 900 GB/s | 2x |
| 推荐模型规模 | 最高 1T 参数 | 最高 175B 参数 | — |

数据解读: Blackwell 在 FP4 性能上的优势是巨大的,但实际推理吞吐量取决于模型量化支持和批处理效率。10 倍的峰值 TFLOPS 数字是理论值;对于生产级 LLM 服务,相对于 H100 的实际增益可能在 3-5 倍之间,具体取决于工作负载。

一个关键的开源参考是 vLLM 项目(GitHub: vllm-project/vllm,45k+ 星标),它提供了一个高吞吐量的服务引擎,并采用 PagedAttention 实现高效的 KV 缓存管理。AI Foundry 可能正在使用 vLLM 的自定义分支或类似基础设施(例如 TensorRT-LLM)来处理订阅模型的动态负载。PagedAttention 算法可将内存碎片减少高达 95%,这对于在固定 GPU 内存上最大化并发用户容量至关重要。

关键参与者与案例研究

AI Foundry 本身在 AI 基础设施领域是一个相对较小的参与者,总部位于新西兰,专注于主权 AI 能力。该公司此前提供 GPU 租赁服务,但此次订阅模式是其最具颠覆性的举措。选择新西兰具有战略意义:该国拥有一个不断发展的 AI 初创生态系统(例如 Soul Machines、Orion Health),并且能源成本相对较低,使其成为数据中心运营的可行地点。

主要的竞争格局包括:

- Together AI:提供按 token 计费的无服务器推理,但最近为高用量用户推出了“专用端点”订阅服务。他们对 Llama 3 70B 的定价约为每百万 token 1.20 美元。
- Fireworks AI:提供按需付费的快速推理服务,针对延迟敏感型应用。他们尚未采用固定费率定价。
- Groq:使用定制 LPU 硬件实现超低延迟,但按 token 收费。其硬件不适用于订阅式的无限使用。
- Replicate:为社区模型提供按 token 和按秒计费的混合模式,但没有无限层级。

| 提供商 | 定价模式 | 基础硬件 | 延迟 (Llama 3 70B, TTFT) | 每日 1000 万 token 成本 |
|----------|---------------|---------------|----------------------------|-------------------------|
| AI Foundry | 固定月费(估计约 5000 美元) | Blackwell B200 | <100ms(声称) | 5000 美元(固定) |
| Together AI | 1.20 美元/百万 token | H100 | 150-200ms | 12,000 美元 |
| Fireworks AI | 0.90 美元/百万 token | H100 | 120-180ms | 9,000 美元 |
| Groq | 0.60 美元/百万 token | LPU | <10ms | 6,000 美元 |

数据解读: 对于每日生成超过约 800 万 token 的用户,AI Foundry 的订阅模式比按 token 计费的替代方案更便宜。然而,Groq 的 LPU 提供了卓越的延迟,这对于语音助手或自主智能体等实时应用可能至关重要。

一个值得注意的案例是 Hugging Face 等平台上的开发者社区,每天有数千个模型在那里进行测试。一个运行多个实验的单个开发者,很容易

更多来自 Hacker News

微软承认Copilot键设计失败:强行将AI塞给用户,只会打乱工作流在一份不同寻常的自我批评中,微软承认Windows 11键盘上新增的专用Copilot键正给相当一部分用户带来真实摩擦。这颗被设计为AI助手一键入口的按键,被发现与自定义键盘快捷键、宏命令乃至基础文本编辑操作产生冲突。这并非简单的软件漏洞,AI 造出“不可能”的乐器:虚拟博物馆如何重新定义音乐虚拟乐器博物馆并非实体收藏,而是一个由人工智能孕育的、活生生的数字乐器库。这些乐器并非真实乐器的采样,而是全新的创造——琴弦因引力波而振动,鼓在四维空间中共鸣,管弦乐音色能根据演奏者的情绪状态改变音质。该项目利用了基于声音物理学、和声数学以Java的AI逆袭:为什么“无聊”的语言在LLM时代反而赢了长期以来,AI编程的叙事一直被Python的灵活性和Rust的安全性所主导。然而,一场静默的革命正在发生:Java,这门许多开发者又爱又恨的语言,正被证明是大语言模型在企业环境中的最佳搭档。我们的分析显示,Java强大的类型系统、标准化的编查看来源专题页Hacker News 已收录 3570 篇文章

时间归档

May 20261932 篇已发布文章

延伸阅读

Java的AI逆袭:为什么“无聊”的语言在LLM时代反而赢了当大语言模型重塑软件开发格局时,曾被诟病冗长乏味的Java,正出人意料地成为企业级AI应用的强力引擎。其严谨的结构与AI的模式匹配能力完美契合,大幅减少幻觉错误,提升代码可靠性。苹果Siri隐私大升级:自动删除聊天记录,秘密接入Gemini引擎苹果正在为Siri推出一项重大隐私升级,引入自动聊天删除功能,同时秘密集成谷歌Gemini模型作为后端智能引擎。这一“隐私优先+第三方AI”策略,在苹果的数据保护理念与自身AI短板之间找到了务实平衡,可能重塑移动AI格局。RAG与微调并非二选一:AI部署迎来双引擎时代多年来,开发者被迫在RAG与微调之间做出选择。我们的分析表明,这其实是一个虚假的二元对立。未来属于混合架构——将微调后的模型行为与实时检索相结合,解锁新一代企业级AI智能体。Claude Code Dominates While DeepSeek V4 Demands a New AI Coding ToolchainDeepSeek V4 is poised to break model benchmarks, but the developer tools that harness it are lagging behind. AINews inve

常见问题

这次公司发布“AI Foundry's Infinite Inference Subscription Could Upend LLM Pricing Models”主要讲了什么?

In a bold departure from the industry-standard pay-per-token model, AI Foundry has introduced an unlimited inference subscription service powered by NVIDIA's Blackwell GPUs. Based…

从“AI Foundry Blackwell GPU subscription pricing details”看,这家公司的这次发布为什么值得关注?

AI Foundry's service is built around NVIDIA's Blackwell GPU architecture, a purpose-built inference accelerator that represents a generational leap over its predecessor, Hopper. The Blackwell B200 GPU features a dual-die…

围绕“unlimited LLM inference performance under load”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。