中国AI热潮面临残酷清算：算力危机或戳破泡沫

围绕中国AI产业的叙事已发生剧变。一年前，讨论焦点是哪家模型能在推理或多模态理解上取得下一个突破。如今，话题已收窄为一个残酷的问题：谁能获得足够的算力继续留在牌桌上？这不是技术失败的故事，而是失控的需求与硬性物理约束碰撞的结果。高端AI加速器——尤其是NVIDIA的H100和B200系列——供应因出口管制严重受限。华为（Ascend 910B/910C）等本土替代品虽在改进，但性能和生态成熟度仍存差距。与此同时，数据中心建设受制于电网容量、土地审批等瓶颈。这场算力危机正在重塑竞争格局：拥有雄厚财力的超大规模云厂商通过囤积GPU和自研芯片占据优势，而独立AI初创公司则被迫转向更高效的架构或垂直领域，否则将面临出局风险。估值泡沫的阴影随之浮现——当算力成为稀缺资源，那些依赖“无限算力”假设的商业模式将难以为继。

技术深度解析

算力短缺不仅仅是供应链问题，更是一个架构性挑战，暴露了现代AI模型在资源消耗上的根本性低效。当前主导范式——在越来越大的数据集上训练越来越大的Transformer模型——假设算力近乎无限。当这一假设失效时，整个技术栈都必须重新思考。

在硬件层面，最关键的瓶颈是内存带宽和互连。训练一个700亿参数的模型，每秒需要在GPU内存和计算单元之间移动数TB的数据。NVIDIA的NVLink和InfiniBand提供了所需带宽，但华为HCCS（华为缓存一致性系统）等本土替代方案仍在成熟过程中。结果是，采用国产芯片构建的集群往往面临更低的“模型算力利用率”（MFU），即实际达到的理论峰值性能比例更小。例如，根据向AINews分享的内部基准测试，在1024块Ascend 910B芯片的集群上，训练密集Transformer的MFU比同等NVIDIA H100集群低30-40%。

| 指标 | NVIDIA H100 (80GB SXM) | 华为 Ascend 910B | 寒武纪 MLU370-S4 |
|---|---|---|---|
| FP8 TFLOPS（稀疏） | 1,979 | 640 | 256 |
| 内存带宽 (GB/s) | 3,350 | 1,200 | 800 |
| 互连带宽 (GB/s per GPU) | 900 (NVLink) | 300 (HCCS) | 100 (PCIe 4.0) |
| 功耗 (TDP, W) | 700 | 310 | 250 |
| 预估 MFU (LLaMA-70B 训练) | 45-55% | 25-35% | 15-20% |

数据要点： 国产芯片与NVIDIA最新产品之间的性能差距不仅体现在原始TFLOPS上。内存带宽和互连缺陷在分布式训练中会叠加放大，这意味着一个由10,000块Ascend 910B芯片组成的集群，其有效吞吐量可能低于4,000块H100组成的集群。这迫使中国公司要么接受较低的模型质量，要么投入更多硬件来弥补。

在软件方面，这场危机加速了对模型压缩技术的关注。量化（FP16到INT8或INT4）、剪枝和知识蒸馏不再是可选的优化手段——它们已成为生存策略。开源仓库`llama.cpp`（目前在GitHub上已超过70,000颗星）已成为在消费级硬件上运行量化模型的关键工具，但其相关性也延伸到了内存稀缺的服务端推理场景。更先进的方法包括混合专家（MoE）架构，该架构每个token仅激活一部分参数。例如，DeepSeek的MoE模型已证明，一个670亿参数的模型可以实现与70亿参数密集模型相当的推理成本，同时保持接近密集模型的质量。这种架构转变是对算力约束的直接回应。

另一种新兴方法是推测解码，即一个小型“草稿”模型生成候选token，由一个大模型并行验证。这可以将延迟降低2-3倍，且不牺牲输出质量。然而，这些技术需要精密的工程实现，尚未在生产环境中广泛部署。真正的突破将出现在硬件和软件为稀缺性而协同设计之时——这一范式转变仍处于早期阶段。

关键玩家与案例研究

算力战争已催生出明确的赢家和输家。在赢家一方，超大规模云厂商——阿里云、百度智能云、腾讯云和字节跳动的火山引擎——凭借其资产负债表锁定了长期GPU供应合同，并建设了大规模数据中心。例如，阿里云已承诺到2025年底部署超过10万块H100等效GPU，主要用于其通义千问模型系列和云客户。字节跳动运营着旗舰聊天机器人豆包，据报道已囤积超过5万块H100，并正积极自研AI芯片，从Broadcom和Marvell挖来了工程师。

在输家一方，是那些在2023-2024年以构建“基础模型”为承诺完成大额融资的独立AI初创公司。智谱AI、百川智能和MiniMax等公司不得不从训练大规模密集模型转向更小、更高效的架构，否则将面临算力额度耗尽的危险。例如，智谱AI已将重心转向采用MoE架构的GLM-4系列以降低推理成本，并与地方政府合作建设补贴算力集群。百川智能则转向金融和医疗等垂直领域模型，这些领域的算力需求较低，变现路径也更清晰。

| 公司 | 策略 | 算力获取（估算） | 关键模型 | 融资额（2023-2025） |
|---|---|---|---|---|
| 字节跳动 | 自研芯片设计 + 超大规模GPU囤积 | 50,000+ H100等效 | 豆包 (MoE) | 30亿美元+（内部） |
| 阿里云 | 云计算租赁 + 自研芯片（倚天710） | 100,000+ H100等效 | 通义千问 2.0 | 20亿美元（云AI投资） |

时间归档

延伸阅读

常见问题

这次公司发布“China's AI Boom Faces a Brutal Reckoning: The Compute Crisis That Could Pop the Bubble”主要讲了什么？

The narrative around China's AI industry has shifted dramatically. A year ago, the conversation was dominated by which model would achieve the next breakthrough in reasoning or mul…

从“How are Chinese AI startups surviving the GPU shortage in 2025?”看，这家公司的这次发布为什么值得关注？

The compute shortage is not merely a supply chain problem; it is an architectural challenge that exposes the fundamental inefficiencies in how modern AI models consume resources. The dominant paradigm—training ever-large…

围绕“What is the difference between Huawei Ascend 910B and NVIDIA H100 for AI training?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。