北京AI超级工厂：日产10万亿Token，成本降低1000倍重塑全球AI格局

北京新投入运营的AI超级工厂代表了人工智能基础设施供给方式的范式转变。与按GPU小时收费的传统云算力租赁不同，该设施被设计为一种公共事业——可扩展、标准化且获得大规模补贴。其核心目标令人震惊：10万Petaflops（100,000P）的计算能力和每日10万亿Token的生成能力。这些数字直接针对现代AI开发中两个最关键的瓶颈：训练大模型的过高成本和高质量训练数据的稀缺。通过集中算力并利用先进的芯片互连、液冷和优化网络，该工厂旨在将总成本降低1000倍，从而可能使AI训练对之前负担不起的组织变得可及。

技术深度解析

架构与工程挑战

北京AI超级工厂不仅仅是一个更大的数据中心；它是一个为AI工作负载量身打造的机器。实现10万Petaflops的算力需要一个紧密集成的加速器、网络和冷却系统。最可能的架构涉及一个由定制或半定制AI芯片组成的大规模集群——很可能是华为昇腾910B或更新的910C的变体，或寒武纪MLU370等国产替代品——通过高带宽、低延迟的互连结构（如华为CloudEngine系列交换机，使用专有的HCCS（华为缓存一致性系统）或类似NVLink的协议）连接。在这种规模下，互连成为瓶颈。传统的以太网网络会引入不可接受的延迟和带宽限制。相反，该工厂可能采用多维环面或蜻蜓拓扑，其中每个节点连接到多个邻居，最小化跳数并最大化分布式训练的全规约性能。功耗和冷却需求同样极端。一个10万Petaflops的集群，假设每个加速器200W且拥有20万个加速器，将消耗超过40兆瓦的电力。液冷是强制性的，可能使用直接到芯片或浸没式冷却来维持热稳定性。该设施位于北京，表明可以接入城市强大的电网，但备用系统和储能对于正常运行时间至关重要。

Token生产流水线

日产10万亿Token的说法是一个独特的技术挑战。这并非关于训练单个模型；而是关于以工业规模生成合成数据。该工厂可能运行一个由较小的专用模型组成的流水线——例如GPT-4类模型的蒸馏版本或微调变体——这些模型生成文本、代码和多模态数据。这些生成模型由一个调度器编排，该调度器平衡计算集群上的负载。输出通过奖励模型或分类器进行过滤、去重和质量评分，然后存储在分布式文件系统（如Ceph或Lustre）中。巨大的数据量——10万亿Token大约相当于每天7.5TB的文本——需要一个能够比任何现有系统更快地摄取、处理和提供数据的流水线。这意味着一个定制构建的数据湖，具有分层存储（热数据用NVMe，冷数据用HDD）和一个能够处理数十亿文件的元数据管理层。对于对开源生态系统感兴趣的读者，Hugging Face Datasets库（GitHub上超过80,000颗星）提供了一个大规模数据加载的框架，但需要针对这种吞吐量进行重大修改。NVIDIA NeMo框架（超过10,000颗星）提供了合成数据生成和管理的工具，但同样，这里的规模超出了典型部署。

性能数据表：计算密度对比

| 设施 | 峰值算力 (Petaflops) | 功耗 (MW) | 冷却方式 | Token产出 (日) | 每Token成本 (估) |
|---|---|---|---|---|---|
| 北京AI超级工厂 | 100,000 | ~40-50 | 直接到芯片液冷 | 10万亿 | $0.00000001 (目标) |
| NVIDIA DGX SuperPOD (H100) | 1,000 | 1.5 | 空气/液冷混合 | 1000亿 | $0.000001 |
| Google TPU v4 Pod | 1,120 | 2.0 | 液冷 | 1500亿 | $0.0000008 |
| Meta AI研究集群 | 5,000 | 10 | 空气 | 5000亿 | $0.0000005 |

数据要点： 北京工厂的计算密度比现有最大集群高出两个数量级，其每Token目标成本比当前市场费率低50-100倍。这不是渐进式改进；这是成本效率的阶跃变化，可能使AI训练对之前负担不起的组织变得可及。

关键参与者与案例研究

国产芯片生态系统

该工厂的成功取决于高性能国产AI芯片的可用性。华为昇腾910B是最可能的候选者，每颗芯片提供约256 TFLOPS（FP16），内存带宽为1.2 TB/s。然而，报告显示良率和性能一致性一直是挑战。寒武纪MLU370是另一个选择，尽管其软件生态系统（寒武纪Neuware）不如华为的CANN成熟。该工厂可能采用异构架构，为不同工作负载混合使用不同芯片类型——例如，昇腾用于训练，寒武纪用于推理或数据生成。这将需要一个统一的编程模型，可能基于MindSpore（华为的开源框架，GitHub上超过2,000颗星）或一个自定义抽象层。

案例研究：字节跳动火山引擎

字节跳动通过其云部门火山引擎，一直是大规模AI基础设施的先驱。他们运营着中国最大的GPU集群之一，主要使用NVIDIA H100（在出口限制之前）以及现在的昇腾芯片。他们的内部模型Doubao是一个大型语言模型

时间归档

延伸阅读

常见问题

这次模型发布“Beijing AI Super Factory: 10 Trillion Tokens Daily, 1000x Cost Reduction Reshapes Global AI Race”的核心内容是什么？

Beijing's newly operational AI super factory represents a paradigm shift in how artificial intelligence infrastructure is provisioned. Unlike traditional cloud compute rentals that…

从“how does Beijing AI super factory achieve 1000x cost reduction”看，这个模型发布为什么重要？

The Beijing AI super factory is not just a larger data center; it is a purpose-built machine for AI workloads. Achieving 100,000 Petaflops of compute requires a tightly integrated system of accelerators, networking, and…

围绕“what chips are used in Beijing AI super factory 100000 petaflops”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。