Token海啸：22亿美元押注AGI基础设施，如何重新定义AI军备竞赛

AI行业当前对模型参数规模的痴迷，正在掩盖一个根本性的范式转移。下一阶段的竞争焦点，并非孤立地让模型变得更聪明，而是让它们能够以可负担的成本大规模落地应用。三大趋势的融合——同时处理视频、音频和文本的多模态模型；7x24小时全天候运行的实时自主智能体；以及生成连续3D环境的世界模拟器——将推动Token日需求量从数十亿飙升至数万亿。一家我们在此分析中称为“InfraCo”的AGI基础设施公司，已筹集22亿美元来提前应对这一需求。其战略是激进的垂直整合：设计定制芯片、专有冷却系统以及新型数据中心架构，将Token密度和效率推向物理极限。

技术深度解析

驱动InfraCo战略的核心洞察，是对缩放定律（Scaling Laws）的重新定义。最初的缩放定律（Kaplan et al., 2020）聚焦于模型参数和训练算力。而InfraCo的论点是，下一个缩放定律将围绕*推理吞吐量*——具体而言，是生成单个Token的成本与延迟。这一转变由三大技术现实驱动：

1. 多模态Token爆炸： 一帧1080p视频，经现代视觉Transformer（ViT，如Sora或Gemini中使用的模型）进行Token化后，大约需要1,000-2,000个Token。以30帧/秒计算，一分钟视频将生成180万至360万个Token。相比之下，一本10万词的小说大约只需13万个Token。生成一分钟高质量视频所消耗的Token量，是一整本书的14-28倍。随着Meta的Movie Gen和Google的Veo 2等模型向更高分辨率和更长时长推进，这一比例还将进一步恶化。

2. 实时智能体循环： 基于LangChain或CrewAI等框架构建的自主智能体，并非仅回答单个查询。它们以循环方式运行：感知、推理、行动、观察。一个单一任务——比如预订一个复杂的旅行行程——可能涉及50-100个内部推理步骤，每一步都需要调用一次模型。如果智能体持续运行（例如，一个监控你收件箱的个人AI助手），Token消耗将变成持续流，而非离散的突发。来自AutoGPT等项目的早期估算表明，一个中等复杂度的智能体任务，其Token消耗量可能达到简单聊天机器人交互的10-100倍。

3. 世界模拟器： 终极Token吞噬者是实时3D世界生成。一个像李飞飞World Labs所提出的世界模拟器，或NVIDIA Omniverse的底层技术，必须以60+帧/秒的速度生成一个一致、可交互的3D环境。每一帧不仅仅是图像，它还包括几何、物理、光照和物体交互，所有这些都被Token化。模拟世界的一秒钟可能需要1,000万至1亿个Token。这是Token需求变得真正天文数字的领域。

InfraCo的垂直整合路径：

为满足这一需求，InfraCo正推行一种极端的垂直整合战略，让人联想到苹果对iPhone的处理方式，但将其应用于AI基础设施。

- 定制芯片（ASIC）： InfraCo设计了自有推理优化芯片，代号“TensorCore-X”。与NVIDIA的H100/B200（同时适用于训练和推理的通用芯片）不同，TensorCore-X是纯推理引擎。它去除了不必要的训练专用电路（如FP64张量核心），取而代之的是巨大的SRAM存储库和一种新型脉动阵列，针对现代LLM中常见的稀疏注意力模式进行了优化。早期泄露信息显示，在推理工作负载下，其每瓦特Token数比B200提升了3倍。

- 以内存为中心的架构： 推理中最大的瓶颈是内存带宽（即“内存墙”）。InfraCo的数据中心采用基于Compute Express Link（CXL）3.0的分解式内存池，允许任何芯片访问共享的高带宽内存（HBM4）池，且没有传统NUMA架构的延迟惩罚。这使得更大的上下文窗口（可能超过100万个Token）成为可能，同时利用Ring Attention（由GitHub上拥有超过2000颗星的开源仓库`ring-attention`推广）等技术，避免了全注意力的二次方成本。

- 液态浸没式冷却： 为实现所需的密度，InfraCo正在大规模部署单相液态浸没式冷却。与传统风冷数据中心相比，这使其每个机架的计算密度提升2-3倍，从而降低芯片间延迟和功耗开销。该冷却系统本身已获专利，使用一种专有介电液，其导热性比标准矿物油高出40%。

- 网络协议优化： InfraCo开发了一种名为“TorusNet”的自定义RDMA（远程直接内存访问）协议，与标准InfiniBand相比，将分布式推理的尾部延迟降低了60%。这对于实时智能体应用至关重要，因为单个慢节点可能使整个推理循环停滞。

数据表格：Token消耗预测

| 应用场景 | 当前每秒Token数 | 2027年预测每秒Token数 | 主要驱动因素 |
|---|---|---|---|
| 文本聊天（GPT-4o） | 50-100 | 200-500 | 更长上下文、多轮对话 |
| 图像生成（DALL-E 3） | 1,000-5,000 | 10,000-50,000 | 更高分辨率、迭代优化 |
| 视频生成（1分钟，1080p） | 2,000,000 | 10,000,000 | 4K分辨率、更长时长 |
| 实时智能体（7x24小时） | 10,000 | 1,000,000 | 持续运行、复杂推理 |
| 世界模拟器（1秒，60fps） | 不适用 | 50,000,000 | 完整物理、几何、光照 |

数据要点： 从文本聊天到世界模拟器，Token需求增长了50万倍。

时间归档

延伸阅读

常见问题

这起“The Token Tsunami: Why a $2.2B Bet on AGI Infrastructure Redefines the AI Arms Race”融资事件讲了什么？

The AI industry's current obsession with model parameter scaling is masking a fundamental shift. The next frontier is not making models smarter in isolation, but making them usable…

从“What is the token economics of AGI infrastructure?”看，为什么这笔融资值得关注？

The core insight driving InfraCo's strategy is a redefinition of the scaling laws. The original scaling laws (Kaplan et al., 2020) focused on model parameters and training compute. InfraCo's thesis is that the next scali…

这起融资事件在“How does vertical integration reduce token cost?”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。