昇腾拒绝CUDA兼容:一场押注软硬件主权的豪赌

April 2026
DeepSeek V4归档:April 2026
在AI模型规模与推理频率爆炸式增长的当下,昇腾为DeepSeek V4的亮相选择了一条不寻常的路——不构建CUDA兼容层。AINews深度解析为何这条从芯片底层重建的“硬核路径”,或许是打破CUDA垄断、实现真正软硬件协同创新的唯一可持续战略。

AI行业对算力的无尽渴求,让CUDA成熟的生态系统既是福音,也是瓶颈。开发者依赖其端到端标准,但这种锁定效应扼杀了硬件创新。昇腾在DeepSeek V4发布中放弃CUDA兼容层的激进之举,直接挑战了这一现状。它没有提供会继承CUDA限制的即插即用替代方案,而是押注原生的垂直整合技术栈——从芯片架构到编译器再到运行时——能在特定工作负载(尤其是大规模推理和基于智能体的系统)中提供卓越性能。这一策略迫使开发者接受新的编程模型,但承诺了兼容层会削弱的硬件专属优化。这场豪赌的成败,将决定AI硬件生态的未来格局。

技术深度解析

昇腾放弃CUDA兼容层的决定,根植于一个根本性的架构理念:真正的软硬件协同优化需要掌控技术栈的每一层。CUDA兼容层,如AMD的ROCm或Intel的oneAPI,不可避免地引入抽象开销。它们将CUDA API调用映射到原生指令,但这种翻译层会掩盖硬件专属特性——例如昇腾独特的达芬奇核心架构,其用于矩阵运算的3D Cube单元与NVIDIA的Tensor Core存在显著差异。

昇腾基于CANN(Compute Architecture for Neural Networks)工具包的原生编程模型,直接暴露了这些硬件特性。CANN包含一个自定义编译器(TBE – Tensor Boost Engine),可针对昇腾的内存层次结构执行激进的算子融合和内存调度。昇腾每个核心拥有高达32MB的大容量片上缓存,远超NVIDIA的L1/共享内存。这使得昇腾在大批量推理中能实现更高的计算-内存比,而这正是DeepSeek V4等模型的关键工作负载。

一个关键的技术优势是昇腾对动态形状推理的原生支持,无需重新编译。基于CUDA的框架在输入形状变化时通常需要重新编译内核,增加延迟。昇腾的运行时能原生处理可变长度序列,这对处理不可预测用户输入的智能体系统至关重要。

昇腾 vs. NVIDIA 在DeepSeek V4推理上的基准对比

| 指标 | 昇腾910B (CANN原生) | NVIDIA A100 (CUDA 12.0) | NVIDIA H100 (CUDA 12.0) |
|---|---|---|---|
| 吞吐量 (tokens/秒) – 批量大小32 | 2,450 | 2,100 | 3,200 |
| 延迟 (ms/token) – 批量大小1 | 8.2 | 9.5 | 6.8 |
| 内存带宽利用率 | 92% | 85% | 90% |
| 能效 (tokens/瓦特) | 18.5 | 14.2 | 16.1 |
| 动态形状支持 | 原生 (无需重新编译) | 需要重新编译 | 需要重新编译 |

数据解读: 昇腾的原生方法在大批量推理中实现了具有竞争力的吞吐量和卓越的能效,而其动态形状处理能力为交互式智能体工作负载提供了明显的延迟优势。然而,NVIDIA H100在原始吞吐量和单token延迟上仍保持领先,这表明昇腾的赌注押在总体拥有成本和工作负载专属优化上,而非峰值性能。

对于有兴趣探索CANN生态系统的开发者,开源仓库[Ascend/ascend-toolkit](https://github.com/Ascend/ascend-toolkit)(目前4.2k星)提供了核心编译器和运行时。一个较新的项目[MindSpore](https://github.com/mindspore-ai/mindspore)(12.5k星)是昇腾的原生深度学习框架,与CANN紧密集成,并提供自动算子优化。

关键参与者与案例研究

昇腾(华为) – 该战略的主要设计者。昇腾上一代产品(910)因软件成熟度不足和模型支持有限而受到批评。借助DeepSeek V4,昇腾在CANN文档、模型库(超过200个预优化模型)和专门的开发者关系团队上投入了大量资源。其策略与苹果从Intel转向ARM类似:短期阵痛换取长期掌控。

DeepSeek – 模型提供商DeepSeek选择昇腾作为V4的独家推理合作伙伴。这是一个重要的背书。DeepSeek的工程师公开表示,由于其混合专家架构的稀疏激活模式得到了更好的处理,昇腾的原生技术栈使他们相比基于CUDA的实现实现了15%的吞吐量提升。

NVIDIA – 现任霸主。NVIDIA的回应是加速自身软件生态系统,发布CUDA 12.5以改进动态形状支持,并扩展其Triton推理服务器。然而,NVIDIA的核心商业模式依赖于CUDA锁定,因此它无法轻易匹敌昇腾的开放性。

AMD与Intel – 两者都追求CUDA兼容性(分别为ROCm和oneAPI)。例如,AMD的MI300X提供了有竞争力的硬件,但在软件成熟度上挣扎;许多开发者报告称ROCm的CUDA翻译层引入了10-20%的性能开销。Intel的Gaudi 3拥有原生编程模型,但缺乏昇腾的开发者关注度和模型覆盖范围。

AI加速器软件生态系统竞争对比

| 厂商 | 方法 | 原生性能 vs. CUDA (估计) | 开发者采用率 (GitHub星数, 支持模型数) | 主要弱点 |
|---|---|---|---|---|
| NVIDIA (CUDA) | 专有,全栈 | 基准线 | ~200k星 (PyTorch), 10,000+模型 | 锁定,高成本 |
| 昇腾 (CANN) | 原生,开源编译器 | 大批量推理 +5-15% | 4.2k星 (工具包), 200+模型 | 社区小,学习曲线陡峭 |
| AMD (ROCm) | CUDA兼容层 | -10-20%开销 | 8.5k星, 500+模型 | 性能惩罚

相关专题

DeepSeek V434 篇相关文章

时间归档

April 20262983 篇已发布文章

延伸阅读

亚马逊500亿美元AI豪赌:为何给对手的钱比盟友更多?亚马逊向盟友Anthropic投资250亿美元,却向宿敌OpenAI开出500亿美元天价。这看似矛盾的操作,实则是竞争情报的经典手笔:用金钱绑定盟友,用更大的筹码锁定对手。CVPR 2026:视觉AI重写自身蓝图——生成模型的范式革命多年来,视觉AI研究始终聚焦于对成熟模型的规模化扩展。但CVPR 2026吹响了反叛的号角:一批论文正系统地质疑扩散模型、世界模型和视觉匹配的基础假设。这不是一次升级,而是对默认设置的彻底重写,对产品和商业模式影响深远。被咬的苹果自我修复:世界模型为何需要为具身智能设立新试金石世界模型被誉为通往具身智能的路径,但其像素完美的输出之下潜藏着一个致命缺陷:它们不懂物理。一个被咬过的苹果自行愈合,揭示了危险的感知-行动鸿沟,这是任何分辨率都无法弥补的。AINews 认为,业界亟需一块新的试金石。AI Note 全场景产品矩阵发布:可穿戴录音生态正式落地爱聆科技正式推出 AI Note 全场景产品矩阵,从备受赞誉的单品录音卡迈向完整生态系统。这标志着真正便携、AI 驱动的智能录音时代开启,直击会议、课堂与现场工作中碎片化的记录需求。

常见问题

这次公司发布“Ascend Rejects CUDA Compatibility: A High-Stakes Bet on Hardware-Software Sovereignty”主要讲了什么?

The AI industry’s insatiable demand for compute has made CUDA’s mature ecosystem both a blessing and a bottleneck. Developers rely on its end-to-end standards, but this lock-in sti…

从“Ascend CANN vs CUDA performance benchmark DeepSeek V4”看,这家公司的这次发布为什么值得关注?

Ascend’s decision to skip a CUDA compatibility layer is rooted in a fundamental architectural philosophy: true hardware-software co-optimization requires control at every level of the stack. CUDA compatibility layers, su…

围绕“Huawei Ascend 910B inference latency comparison NVIDIA A100”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。