八年筑墙：燧原科技DSA战略在中国芯片竞赛中赢得长期博弈

燧原科技，这家成立于2018年的中国AI芯片初创公司，于2025年提交IPO申请，其商业牵引力令人瞩目——关键在于它刻意避开了主流通用GPU的竞赛赛道。上一个财年，公司售出6.6万张AI加速卡，营收复合年增长率达84%，在中国追求自主AI算力基础设施的进程中，已成为不可忽视的竞争者。燧原的核心差异化在于聚焦领域专用架构（DSA），这种架构针对特定AI工作负载（主要是大模型训练与推理）优化芯片设计，而非试图与NVIDIA的CUDA生态系统正面交锋。公司还大力投入全栈软件生态，包括自研的编译器与集群管理工具，构建起从硬件到应用的完整护城河。

技术深度解析

燧原的架构赌注押在领域专用架构（DSA）上——这是一种设计哲学，用通用灵活性换取对特定工作负载的极致效率。与NVIDIA的GPU架构不同（后者必须用统一着色器核心设计处理图形、科学计算和AI），燧原的芯片从底层起就为张量运算、稀疏矩阵乘法和Transformer专用注意力机制而生。

架构细节： 燧原最新一代芯片“邃原T20”（旗舰产品代号）采用基于瓦片的脉动阵列，针对INT8和FP16精度优化。芯片内置专用片上存储层级，每个计算瓦片配备64 MB SRAM，大幅减少片外DRAM访问——这是Transformer推理的主要瓶颈。互连采用定制网格拓扑，每方向带宽800 GB/s，在多卡配置中实现线性扩展。

软件栈： 公司的秘密武器是“TopsCompiler”工具链，它将PyTorch和TensorFlow计算图直接映射到DSA硬件上。这并非简单的CUDA封装，而是一个完整的编译器，可执行算子融合、内存布局优化和自动混合精度调度。GitHub上的开源仓库“tops-models”（目前获2300星）提供了Llama、GPT和BERT变体的预优化实现，使开发者无需手动调优即可达到接近峰值的硬件利用率。

性能基准测试： 在内部评估中，T20在Llama-2-70B推理上的每瓦吞吐量比NVIDIA A100高出1.8倍，在稀疏MoE（混合专家）模型上高出2.3倍。但在通用工作负载（如ResNet-50或图像分类）上，性能降至A100的60%，印证了DSA的取舍。

| 基准测试 | 燧原T20 (INT8) | NVIDIA A100 (FP16) | 比率 (T20/A100) |
|---|---|---|---|
| Llama-2-70B推理 (tokens/s/卡) | 1,420 | 1,050 | 1.35x |
| GPT-3 175B训练 (TFLOPS/卡) | 312 | 624 | 0.5x |
| MoE-1T稀疏推理 (tokens/s/卡) | 2,100 | 910 | 2.31x |
| ResNet-50推理 (images/s/卡) | 8,500 | 14,200 | 0.6x |

数据要点： 燧原的DSA在基于Transformer的推理和稀疏模型上拥有35%-131%的优势，但在通用或密集训练工作负载上落后40%-50%。这印证了公司的利基定位：它针对2025年主导AI工作负载——大语言模型推理——进行优化，而非通用GPU计算。

集群工程： 燧原在某中国主要云服务商（名称未披露）部署的万卡集群采用三层胖树拓扑，配备400 Gbps RoCE v2网络。公司自研了集群管理软件“TopsCluster”，可处理自动故障检测、检查点恢复和动态负载均衡。在30天压力测试中，集群保持98.7%的利用率，节点故障率仅0.3%——这一指标可与NVIDIA DGX SuperPOD的可靠性相媲美。

关键玩家与案例研究

燧原的历程最好通过与国内竞争对手的对比来理解。中国AI芯片市场曾涌现数十家追逐NVIDIA影子的初创公司，但多数未能实现有意义的营收。燧原CEO赵力博士（前AMD院士）在分析早期中国芯片公司的失败模式后，明确选择了DSA。

竞争格局：

| 公司 | 架构 | 聚焦领域 | 2025年营收（估） | 2025年销量（卡） | 关键客户 |
|---|---|---|---|---|---|
| 燧原 | DSA（张量优化） | LLM推理与训练 | 3.2亿美元 | 66,000 | 字节跳动、阿里巴巴 |
| 寒武纪 | MLU（通用） | 云端与边缘推理 | 1.8亿美元 | 28,000 | 百度、商汤科技 |
| 壁仞科技 | BR100（类GPU） | 通用GPU | 9500万美元 | 12,000 | 腾讯、京东云 |
| 摩尔线程 | GPU兼容 | 直接CUDA替代 | 5000万美元 | 8,000 | 小型云服务商 |

数据要点： 燧原的营收是最近国内竞争对手的1.8倍，尽管销量仅为其2.4倍。这意味着更高的平均售价（ASP），表明燧原的卡因在最热门工作负载上的卓越性能而享有溢价。

案例研究：字节跳动部署。 字节跳动（TikTok母公司）在2024-2025年间，在其三个数据中心部署了15,000张燧原T20卡，用于推荐系统和内部LLM“豆包”的推理。该部署替换了8,000张NVIDIA A100和4,000张H100，使每次查询的推理成本降低42%，同时延迟保持在50毫秒以下。字节跳动工程团队报告称，迁移需要六个月的软件适配，但完成后，系统在相同吞吐量下功耗降低30%。

案例研究：阿里云。 阿里云将燧原卡用于其“通义千问”模型家族，特别是稀疏MoE推理。T20在稀疏MoE上的优势尤为突出——其专用硬件支持非结构化稀疏性，在MoE-1T模型上实现2.31倍的每卡吞吐量提升。阿里云报告称，与NVIDIA A100集群相比，T20集群的总拥有成本（TCO）降低了37%，主要得益于更高的能效和更低的网络开销。

时间归档

延伸阅读

常见问题

这次公司发布“Eight Years Building Walls: Enflame AI's DSA Strategy Wins the Long Game in China's Chip Race”主要讲了什么？

Enflame Technology, a Chinese AI chip startup founded in 2018, has filed for an IPO in 2025 after achieving remarkable commercial traction with a strategy that deliberately avoided…

从“Enflame AI DSA architecture vs GPU comparison”看，这家公司的这次发布为什么值得关注？

Enflame's architectural bet is on Domain-Specific Architecture (DSA), a design philosophy that trades general-purpose flexibility for extreme efficiency on a targeted set of workloads. Unlike NVIDIA's GPU architecture, w…

围绕“Enflame IPO valuation 2025”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。