Token海啸:22亿美元押注AGI基础设施,如何重新定义AI军备竞赛

May 2026
归档:May 2026
当业界沉迷于模型参数数量的军备竞赛时,一场更深层的危机正在逼近:Token消耗量即将爆发式增长千倍。一家AGI基础设施公司已获得22亿美元融资,押注一个核心观点——通往AGI的瓶颈并非智能本身,而是Token供应的成本与延迟。

AI行业当前对模型参数规模的痴迷,正在掩盖一个根本性的范式转移。下一阶段的竞争焦点,并非孤立地让模型变得更聪明,而是让它们能够以可负担的成本大规模落地应用。三大趋势的融合——同时处理视频、音频和文本的多模态模型;7x24小时全天候运行的实时自主智能体;以及生成连续3D环境的世界模拟器——将推动Token日需求量从数十亿飙升至数万亿。一家我们在此分析中称为“InfraCo”的AGI基础设施公司,已筹集22亿美元来提前应对这一需求。其战略是激进的垂直整合:设计定制芯片、专有冷却系统以及新型数据中心架构,将Token密度和效率推向物理极限。

技术深度解析

驱动InfraCo战略的核心洞察,是对缩放定律(Scaling Laws)的重新定义。最初的缩放定律(Kaplan et al., 2020)聚焦于模型参数和训练算力。而InfraCo的论点是,下一个缩放定律将围绕*推理吞吐量*——具体而言,是生成单个Token的成本与延迟。这一转变由三大技术现实驱动:

1. 多模态Token爆炸: 一帧1080p视频,经现代视觉Transformer(ViT,如Sora或Gemini中使用的模型)进行Token化后,大约需要1,000-2,000个Token。以30帧/秒计算,一分钟视频将生成180万至360万个Token。相比之下,一本10万词的小说大约只需13万个Token。生成一分钟高质量视频所消耗的Token量,是一整本书的14-28倍。随着Meta的Movie Gen和Google的Veo 2等模型向更高分辨率和更长时长推进,这一比例还将进一步恶化。

2. 实时智能体循环: 基于LangChain或CrewAI等框架构建的自主智能体,并非仅回答单个查询。它们以循环方式运行:感知、推理、行动、观察。一个单一任务——比如预订一个复杂的旅行行程——可能涉及50-100个内部推理步骤,每一步都需要调用一次模型。如果智能体持续运行(例如,一个监控你收件箱的个人AI助手),Token消耗将变成持续流,而非离散的突发。来自AutoGPT等项目的早期估算表明,一个中等复杂度的智能体任务,其Token消耗量可能达到简单聊天机器人交互的10-100倍。

3. 世界模拟器: 终极Token吞噬者是实时3D世界生成。一个像李飞飞World Labs所提出的世界模拟器,或NVIDIA Omniverse的底层技术,必须以60+帧/秒的速度生成一个一致、可交互的3D环境。每一帧不仅仅是图像,它还包括几何、物理、光照和物体交互,所有这些都被Token化。模拟世界的一秒钟可能需要1,000万至1亿个Token。这是Token需求变得真正天文数字的领域。

InfraCo的垂直整合路径:

为满足这一需求,InfraCo正推行一种极端的垂直整合战略,让人联想到苹果对iPhone的处理方式,但将其应用于AI基础设施。

- 定制芯片(ASIC): InfraCo设计了自有推理优化芯片,代号“TensorCore-X”。与NVIDIA的H100/B200(同时适用于训练和推理的通用芯片)不同,TensorCore-X是纯推理引擎。它去除了不必要的训练专用电路(如FP64张量核心),取而代之的是巨大的SRAM存储库和一种新型脉动阵列,针对现代LLM中常见的稀疏注意力模式进行了优化。早期泄露信息显示,在推理工作负载下,其每瓦特Token数比B200提升了3倍。

- 以内存为中心的架构: 推理中最大的瓶颈是内存带宽(即“内存墙”)。InfraCo的数据中心采用基于Compute Express Link(CXL)3.0的分解式内存池,允许任何芯片访问共享的高带宽内存(HBM4)池,且没有传统NUMA架构的延迟惩罚。这使得更大的上下文窗口(可能超过100万个Token)成为可能,同时利用Ring Attention(由GitHub上拥有超过2000颗星的开源仓库`ring-attention`推广)等技术,避免了全注意力的二次方成本。

- 液态浸没式冷却: 为实现所需的密度,InfraCo正在大规模部署单相液态浸没式冷却。与传统风冷数据中心相比,这使其每个机架的计算密度提升2-3倍,从而降低芯片间延迟和功耗开销。该冷却系统本身已获专利,使用一种专有介电液,其导热性比标准矿物油高出40%。

- 网络协议优化: InfraCo开发了一种名为“TorusNet”的自定义RDMA(远程直接内存访问)协议,与标准InfiniBand相比,将分布式推理的尾部延迟降低了60%。这对于实时智能体应用至关重要,因为单个慢节点可能使整个推理循环停滞。

数据表格:Token消耗预测

| 应用场景 | 当前每秒Token数 | 2027年预测每秒Token数 | 主要驱动因素 |
|---|---|---|---|
| 文本聊天(GPT-4o) | 50-100 | 200-500 | 更长上下文、多轮对话 |
| 图像生成(DALL-E 3) | 1,000-5,000 | 10,000-50,000 | 更高分辨率、迭代优化 |
| 视频生成(1分钟,1080p) | 2,000,000 | 10,000,000 | 4K分辨率、更长时长 |
| 实时智能体(7x24小时) | 10,000 | 1,000,000 | 持续运行、复杂推理 |
| 世界模拟器(1秒,60fps) | 不适用 | 50,000,000 | 完整物理、几何、光照 |

数据要点: 从文本聊天到世界模拟器,Token需求增长了50万倍。

时间归档

May 2026784 篇已发布文章

延伸阅读

马斯克的「晶圆巨构」豪赌:垂直整合战略,意图掌控AI的物理宇宙埃隆·马斯克正启动名为「Terafab」的宏伟战略,旨在将尖端AI芯片设计与自主半导体制造深度融合。这一垂直整合举措旨在突破行业瓶颈,实现计算规模50倍的扩张,从根本上重塑万亿参数模型与自主AI智能体所需的物理基础设施。从硅片到语法:AI基础设施之战如何从囤积GPU转向代币经济学AI基础设施竞赛已发生范式转移。竞争焦点不再局限于争夺稀缺的GPU硬件,而是从根本上转向优化智能'代币'的生产与交付——这些代币是AI服务输出的标准化单元。这场从'硅片中心'转向'语法中心'的战争,正在重新定义行业护城河,并推动先进智能的民高德发布全栈具身智能系统,AGI竞争进入基础设施时代阿里巴巴旗下高德地图近日首次完整披露其全栈具身智能技术体系,宣称在15项全球基准测试中取得领先性能。此举不仅标志着技术突破,更预示着行业正转向一体化、基础设施层级的通用人工智能解决方案,将加速实体世界部署进程。字节跳动的AI豪赌:豆包日处理120万亿tokens,行业迎来成本清算时刻字节跳动旗下AI助手豆包据称每日处理高达120万亿tokens,这标志着AI竞争正从技术比拼转向规模与用户参与的终极较量。每日数千万美元的运营成本,不仅是一场高风险赌注,更迫使整个生成式AI行业直面残酷的经济现实。

常见问题

这起“The Token Tsunami: Why a $2.2B Bet on AGI Infrastructure Redefines the AI Arms Race”融资事件讲了什么?

The AI industry's current obsession with model parameter scaling is masking a fundamental shift. The next frontier is not making models smarter in isolation, but making them usable…

从“What is the token economics of AGI infrastructure?”看,为什么这笔融资值得关注?

The core insight driving InfraCo's strategy is a redefinition of the scaling laws. The original scaling laws (Kaplan et al., 2020) focused on model parameters and training compute. InfraCo's thesis is that the next scali…

这起融资事件在“How does vertical integration reduce token cost?”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。