技术深度解析
燧原的架构赌注押在领域专用架构(DSA)上——这是一种设计哲学,用通用灵活性换取对特定工作负载的极致效率。与NVIDIA的GPU架构不同(后者必须用统一着色器核心设计处理图形、科学计算和AI),燧原的芯片从底层起就为张量运算、稀疏矩阵乘法和Transformer专用注意力机制而生。
架构细节: 燧原最新一代芯片“邃原T20”(旗舰产品代号)采用基于瓦片的脉动阵列,针对INT8和FP16精度优化。芯片内置专用片上存储层级,每个计算瓦片配备64 MB SRAM,大幅减少片外DRAM访问——这是Transformer推理的主要瓶颈。互连采用定制网格拓扑,每方向带宽800 GB/s,在多卡配置中实现线性扩展。
软件栈: 公司的秘密武器是“TopsCompiler”工具链,它将PyTorch和TensorFlow计算图直接映射到DSA硬件上。这并非简单的CUDA封装,而是一个完整的编译器,可执行算子融合、内存布局优化和自动混合精度调度。GitHub上的开源仓库“tops-models”(目前获2300星)提供了Llama、GPT和BERT变体的预优化实现,使开发者无需手动调优即可达到接近峰值的硬件利用率。
性能基准测试: 在内部评估中,T20在Llama-2-70B推理上的每瓦吞吐量比NVIDIA A100高出1.8倍,在稀疏MoE(混合专家)模型上高出2.3倍。但在通用工作负载(如ResNet-50或图像分类)上,性能降至A100的60%,印证了DSA的取舍。
| 基准测试 | 燧原T20 (INT8) | NVIDIA A100 (FP16) | 比率 (T20/A100) |
|---|---|---|---|
| Llama-2-70B推理 (tokens/s/卡) | 1,420 | 1,050 | 1.35x |
| GPT-3 175B训练 (TFLOPS/卡) | 312 | 624 | 0.5x |
| MoE-1T稀疏推理 (tokens/s/卡) | 2,100 | 910 | 2.31x |
| ResNet-50推理 (images/s/卡) | 8,500 | 14,200 | 0.6x |
数据要点: 燧原的DSA在基于Transformer的推理和稀疏模型上拥有35%-131%的优势,但在通用或密集训练工作负载上落后40%-50%。这印证了公司的利基定位:它针对2025年主导AI工作负载——大语言模型推理——进行优化,而非通用GPU计算。
集群工程: 燧原在某中国主要云服务商(名称未披露)部署的万卡集群采用三层胖树拓扑,配备400 Gbps RoCE v2网络。公司自研了集群管理软件“TopsCluster”,可处理自动故障检测、检查点恢复和动态负载均衡。在30天压力测试中,集群保持98.7%的利用率,节点故障率仅0.3%——这一指标可与NVIDIA DGX SuperPOD的可靠性相媲美。
关键玩家与案例研究
燧原的历程最好通过与国内竞争对手的对比来理解。中国AI芯片市场曾涌现数十家追逐NVIDIA影子的初创公司,但多数未能实现有意义的营收。燧原CEO赵力博士(前AMD院士)在分析早期中国芯片公司的失败模式后,明确选择了DSA。
竞争格局:
| 公司 | 架构 | 聚焦领域 | 2025年营收(估) | 2025年销量(卡) | 关键客户 |
|---|---|---|---|---|---|
| 燧原 | DSA(张量优化) | LLM推理与训练 | 3.2亿美元 | 66,000 | 字节跳动、阿里巴巴 |
| 寒武纪 | MLU(通用) | 云端与边缘推理 | 1.8亿美元 | 28,000 | 百度、商汤科技 |
| 壁仞科技 | BR100(类GPU) | 通用GPU | 9500万美元 | 12,000 | 腾讯、京东云 |
| 摩尔线程 | GPU兼容 | 直接CUDA替代 | 5000万美元 | 8,000 | 小型云服务商 |
数据要点: 燧原的营收是最近国内竞争对手的1.8倍,尽管销量仅为其2.4倍。这意味着更高的平均售价(ASP),表明燧原的卡因在最热门工作负载上的卓越性能而享有溢价。
案例研究:字节跳动部署。 字节跳动(TikTok母公司)在2024-2025年间,在其三个数据中心部署了15,000张燧原T20卡,用于推荐系统和内部LLM“豆包”的推理。该部署替换了8,000张NVIDIA A100和4,000张H100,使每次查询的推理成本降低42%,同时延迟保持在50毫秒以下。字节跳动工程团队报告称,迁移需要六个月的软件适配,但完成后,系统在相同吞吐量下功耗降低30%。
案例研究:阿里云。 阿里云将燧原卡用于其“通义千问”模型家族,特别是稀疏MoE推理。T20在稀疏MoE上的优势尤为突出——其专用硬件支持非结构化稀疏性,在MoE-1T模型上实现2.31倍的每卡吞吐量提升。阿里云报告称,与NVIDIA A100集群相比,T20集群的总拥有成本(TCO)降低了37%,主要得益于更高的能效和更低的网络开销。