八年筑墙:燧原科技DSA战略在中国芯片竞赛中赢得长期博弈

June 2026
归档:June 2026
经过八年深思熟虑、不走寻常路的工程打磨,燧原科技凭借6.6万张AI加速卡销量和84%的营收复合年增长率,正式递交IPO申请。该公司押注领域专用架构(DSA)而非通用GPU的战略,正被真实的市场牵引力与大规模集群部署所验证。

燧原科技,这家成立于2018年的中国AI芯片初创公司,于2025年提交IPO申请,其商业牵引力令人瞩目——关键在于它刻意避开了主流通用GPU的竞赛赛道。上一个财年,公司售出6.6万张AI加速卡,营收复合年增长率达84%,在中国追求自主AI算力基础设施的进程中,已成为不可忽视的竞争者。燧原的核心差异化在于聚焦领域专用架构(DSA),这种架构针对特定AI工作负载(主要是大模型训练与推理)优化芯片设计,而非试图与NVIDIA的CUDA生态系统正面交锋。公司还大力投入全栈软件生态,包括自研的编译器与集群管理工具,构建起从硬件到应用的完整护城河。

技术深度解析

燧原的架构赌注押在领域专用架构(DSA)上——这是一种设计哲学,用通用灵活性换取对特定工作负载的极致效率。与NVIDIA的GPU架构不同(后者必须用统一着色器核心设计处理图形、科学计算和AI),燧原的芯片从底层起就为张量运算、稀疏矩阵乘法和Transformer专用注意力机制而生。

架构细节: 燧原最新一代芯片“邃原T20”(旗舰产品代号)采用基于瓦片的脉动阵列,针对INT8和FP16精度优化。芯片内置专用片上存储层级,每个计算瓦片配备64 MB SRAM,大幅减少片外DRAM访问——这是Transformer推理的主要瓶颈。互连采用定制网格拓扑,每方向带宽800 GB/s,在多卡配置中实现线性扩展。

软件栈: 公司的秘密武器是“TopsCompiler”工具链,它将PyTorch和TensorFlow计算图直接映射到DSA硬件上。这并非简单的CUDA封装,而是一个完整的编译器,可执行算子融合、内存布局优化和自动混合精度调度。GitHub上的开源仓库“tops-models”(目前获2300星)提供了Llama、GPT和BERT变体的预优化实现,使开发者无需手动调优即可达到接近峰值的硬件利用率。

性能基准测试: 在内部评估中,T20在Llama-2-70B推理上的每瓦吞吐量比NVIDIA A100高出1.8倍,在稀疏MoE(混合专家)模型上高出2.3倍。但在通用工作负载(如ResNet-50或图像分类)上,性能降至A100的60%,印证了DSA的取舍。

| 基准测试 | 燧原T20 (INT8) | NVIDIA A100 (FP16) | 比率 (T20/A100) |
|---|---|---|---|
| Llama-2-70B推理 (tokens/s/卡) | 1,420 | 1,050 | 1.35x |
| GPT-3 175B训练 (TFLOPS/卡) | 312 | 624 | 0.5x |
| MoE-1T稀疏推理 (tokens/s/卡) | 2,100 | 910 | 2.31x |
| ResNet-50推理 (images/s/卡) | 8,500 | 14,200 | 0.6x |

数据要点: 燧原的DSA在基于Transformer的推理和稀疏模型上拥有35%-131%的优势,但在通用或密集训练工作负载上落后40%-50%。这印证了公司的利基定位:它针对2025年主导AI工作负载——大语言模型推理——进行优化,而非通用GPU计算。

集群工程: 燧原在某中国主要云服务商(名称未披露)部署的万卡集群采用三层胖树拓扑,配备400 Gbps RoCE v2网络。公司自研了集群管理软件“TopsCluster”,可处理自动故障检测、检查点恢复和动态负载均衡。在30天压力测试中,集群保持98.7%的利用率,节点故障率仅0.3%——这一指标可与NVIDIA DGX SuperPOD的可靠性相媲美。

关键玩家与案例研究

燧原的历程最好通过与国内竞争对手的对比来理解。中国AI芯片市场曾涌现数十家追逐NVIDIA影子的初创公司,但多数未能实现有意义的营收。燧原CEO赵力博士(前AMD院士)在分析早期中国芯片公司的失败模式后,明确选择了DSA。

竞争格局:

| 公司 | 架构 | 聚焦领域 | 2025年营收(估) | 2025年销量(卡) | 关键客户 |
|---|---|---|---|---|---|
| 燧原 | DSA(张量优化) | LLM推理与训练 | 3.2亿美元 | 66,000 | 字节跳动、阿里巴巴 |
| 寒武纪 | MLU(通用) | 云端与边缘推理 | 1.8亿美元 | 28,000 | 百度、商汤科技 |
| 壁仞科技 | BR100(类GPU) | 通用GPU | 9500万美元 | 12,000 | 腾讯、京东云 |
| 摩尔线程 | GPU兼容 | 直接CUDA替代 | 5000万美元 | 8,000 | 小型云服务商 |

数据要点: 燧原的营收是最近国内竞争对手的1.8倍,尽管销量仅为其2.4倍。这意味着更高的平均售价(ASP),表明燧原的卡因在最热门工作负载上的卓越性能而享有溢价。

案例研究:字节跳动部署。 字节跳动(TikTok母公司)在2024-2025年间,在其三个数据中心部署了15,000张燧原T20卡,用于推荐系统和内部LLM“豆包”的推理。该部署替换了8,000张NVIDIA A100和4,000张H100,使每次查询的推理成本降低42%,同时延迟保持在50毫秒以下。字节跳动工程团队报告称,迁移需要六个月的软件适配,但完成后,系统在相同吞吐量下功耗降低30%。

案例研究:阿里云。 阿里云将燧原卡用于其“通义千问”模型家族,特别是稀疏MoE推理。T20在稀疏MoE上的优势尤为突出——其专用硬件支持非结构化稀疏性,在MoE-1T模型上实现2.31倍的每卡吞吐量提升。阿里云报告称,与NVIDIA A100集群相比,T20集群的总拥有成本(TCO)降低了37%,主要得益于更高的能效和更低的网络开销。

时间归档

June 2026912 篇已发布文章

延伸阅读

The Hidden War for AI Supremacy: How Advanced Packaging Became the Critical BattlegroundBeneath the surface of every cutting-edge AI chip lies a silent revolution. The industry's relentless pursuit of more poKimi's World Cup Predictions: Why AI Admitting Uncertainty Is True ProgressKimi's World Cup predictions aren't about getting every match right. They represent a fundamental shift in AI design: moClaude封号事件暴露AI依赖危机:平台锁定的隐形风险一位长期使用Claude的用户突然被无理由封禁,经过五天的煎熬,账户仍被锁定。这一事件揭示了一个危险的漏洞:当AI工具成为认知基础设施时,用户对平台的不透明决策毫无申诉渠道,而没有任何单一替代品能复制Claude独特的推理与安全平衡。中国AI芯片困局:为何2030才是真正的突破之年国产AI加速器正深陷开发者抱怨与供应短缺的双重夹击。然而,一场旨在实现原生PyTorch兼容、打造CUDA级软件库、并借助先进封装破局的协同努力,有望在本十年末彻底扭转局面。

常见问题

这次公司发布“Eight Years Building Walls: Enflame AI's DSA Strategy Wins the Long Game in China's Chip Race”主要讲了什么?

Enflame Technology, a Chinese AI chip startup founded in 2018, has filed for an IPO in 2025 after achieving remarkable commercial traction with a strategy that deliberately avoided…

从“Enflame AI DSA architecture vs GPU comparison”看,这家公司的这次发布为什么值得关注?

Enflame's architectural bet is on Domain-Specific Architecture (DSA), a design philosophy that trades general-purpose flexibility for extreme efficiency on a targeted set of workloads. Unlike NVIDIA's GPU architecture, w…

围绕“Enflame IPO valuation 2025”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。