技术深度解析
算力短缺不仅仅是供应链问题,更是一个架构性挑战,暴露了现代AI模型在资源消耗上的根本性低效。当前主导范式——在越来越大的数据集上训练越来越大的Transformer模型——假设算力近乎无限。当这一假设失效时,整个技术栈都必须重新思考。
在硬件层面,最关键的瓶颈是内存带宽和互连。训练一个700亿参数的模型,每秒需要在GPU内存和计算单元之间移动数TB的数据。NVIDIA的NVLink和InfiniBand提供了所需带宽,但华为HCCS(华为缓存一致性系统)等本土替代方案仍在成熟过程中。结果是,采用国产芯片构建的集群往往面临更低的“模型算力利用率”(MFU),即实际达到的理论峰值性能比例更小。例如,根据向AINews分享的内部基准测试,在1024块Ascend 910B芯片的集群上,训练密集Transformer的MFU比同等NVIDIA H100集群低30-40%。
| 指标 | NVIDIA H100 (80GB SXM) | 华为 Ascend 910B | 寒武纪 MLU370-S4 |
|---|---|---|---|
| FP8 TFLOPS(稀疏) | 1,979 | 640 | 256 |
| 内存带宽 (GB/s) | 3,350 | 1,200 | 800 |
| 互连带宽 (GB/s per GPU) | 900 (NVLink) | 300 (HCCS) | 100 (PCIe 4.0) |
| 功耗 (TDP, W) | 700 | 310 | 250 |
| 预估 MFU (LLaMA-70B 训练) | 45-55% | 25-35% | 15-20% |
数据要点: 国产芯片与NVIDIA最新产品之间的性能差距不仅体现在原始TFLOPS上。内存带宽和互连缺陷在分布式训练中会叠加放大,这意味着一个由10,000块Ascend 910B芯片组成的集群,其有效吞吐量可能低于4,000块H100组成的集群。这迫使中国公司要么接受较低的模型质量,要么投入更多硬件来弥补。
在软件方面,这场危机加速了对模型压缩技术的关注。量化(FP16到INT8或INT4)、剪枝和知识蒸馏不再是可选的优化手段——它们已成为生存策略。开源仓库`llama.cpp`(目前在GitHub上已超过70,000颗星)已成为在消费级硬件上运行量化模型的关键工具,但其相关性也延伸到了内存稀缺的服务端推理场景。更先进的方法包括混合专家(MoE)架构,该架构每个token仅激活一部分参数。例如,DeepSeek的MoE模型已证明,一个670亿参数的模型可以实现与70亿参数密集模型相当的推理成本,同时保持接近密集模型的质量。这种架构转变是对算力约束的直接回应。
另一种新兴方法是推测解码,即一个小型“草稿”模型生成候选token,由一个大模型并行验证。这可以将延迟降低2-3倍,且不牺牲输出质量。然而,这些技术需要精密的工程实现,尚未在生产环境中广泛部署。真正的突破将出现在硬件和软件为稀缺性而协同设计之时——这一范式转变仍处于早期阶段。
关键玩家与案例研究
算力战争已催生出明确的赢家和输家。在赢家一方,超大规模云厂商——阿里云、百度智能云、腾讯云和字节跳动的火山引擎——凭借其资产负债表锁定了长期GPU供应合同,并建设了大规模数据中心。例如,阿里云已承诺到2025年底部署超过10万块H100等效GPU,主要用于其通义千问模型系列和云客户。字节跳动运营着旗舰聊天机器人豆包,据报道已囤积超过5万块H100,并正积极自研AI芯片,从Broadcom和Marvell挖来了工程师。
在输家一方,是那些在2023-2024年以构建“基础模型”为承诺完成大额融资的独立AI初创公司。智谱AI、百川智能和MiniMax等公司不得不从训练大规模密集模型转向更小、更高效的架构,否则将面临算力额度耗尽的危险。例如,智谱AI已将重心转向采用MoE架构的GLM-4系列以降低推理成本,并与地方政府合作建设补贴算力集群。百川智能则转向金融和医疗等垂直领域模型,这些领域的算力需求较低,变现路径也更清晰。
| 公司 | 策略 | 算力获取(估算) | 关键模型 | 融资额(2023-2025) |
|---|---|---|---|---|
| 字节跳动 | 自研芯片设计 + 超大规模GPU囤积 | 50,000+ H100等效 | 豆包 (MoE) | 30亿美元+(内部) |
| 阿里云 | 云计算租赁 + 自研芯片(倚天710) | 100,000+ H100等效 | 通义千问 2.0 | 20亿美元(云AI投资) |