技术深度解析
其核心创新在于彻底背离了传统GPU赖以生存的稠密矩阵乘法。英伟达的CUDA核心和Tensor Core专为稠密、可预测的运算而优化。然而,现代神经网络,尤其是大语言模型和扩散模型,展现出显著的稀疏性:许多激活值趋近于零,大量权重对最终输出的贡献微乎其微。这家公司代号为“SparseCore”的芯片,采用了一种空间架构,实现了一种名为“动态激活剪枝”的技术。
该芯片并非计算每一层的所有运算,而是通过一个轻量级的片上调度器实时分析输入数据流。它识别出哪些神经元或注意力头将产生接近零的输出,并在物理层面关闭这些计算单元的供电。这不是软件层面的剪枝,而是硬件层面、逐周期做出的决策。芯片的内存层次结构也经过重新设计。它采用分布式SRAM结构,配合非均匀访问模式,使其仅获取实际需要的权重和激活值。这大大降低了内存带宽压力——这是推理过程中的一个主要瓶颈。
对于开发者,该公司提供了一套自定义编译器和运行时环境“SparseFlow”,已在GitHub上开源(仓库地址:`sparseflow/sparseflow`,目前获得12,000颗星)。SparseFlow能够接收在PyTorch或TensorFlow中训练的模型,自动将其映射到SparseCore架构,并插入稀疏性感知的优化。该编译器还能执行训练后量化,将模型精度降至INT4和INT2,进一步降低计算和内存负载。
该公司招股说明书中的基准测试数据,展示了其与英伟达H100在视频生成模型推理方面的性能对比:
| 模型 | 硬件 | 延迟(每帧) | 功耗(瓦) | 吞吐量(帧/秒) | 每百万帧成本 |
|---|---|---|---|---|---|
| Stable Video Diffusion XL | H100 (SXM) | 1.2秒 | 700W | 0.83 | $4.20 |
| Stable Video Diffusion XL | SparseCore | 0.4秒 | 180W | 2.50 | $0.90 |
| Sora类(内部) | H100 (8x) | 8.5秒(每片段) | 5600W | 0.12 | $35.00 |
| Sora类(内部) | SparseCore (4x) | 2.1秒(每片段) | 720W | 0.48 | $4.50 |
数据要点: 在视频生成推理方面,SparseCore实现了3倍延迟降低和4倍功耗降低。对于更大的Sora类模型,效率差距进一步拉大,在功耗降低7.8倍的同时实现了4倍吞吐量提升。这不是渐进式改进,而是推理效率的代际飞跃。
该架构在自主智能体的动态数据流处理方面同样表现出色。智能体工作流涉及一连串的LLM调用、工具使用和记忆检索。SparseCore的稀疏调度器能够快速在不同模型切片间切换,跳过每一步中不必要的计算,与GPU相比,将多步推理任务的端到端延迟降低了5倍。
关键玩家与案例研究
该公司由前谷歌TPU团队首席架构师Elena Vance博士和东京大学稀疏神经网络理论先驱Kenji Tanaka博士共同创立。他们的核心洞察是:行业在训练硬件上过度投资,却忽视了即将到来的推理爆发。
其主要客户已经锁定。视频生成领域的领导者RunwayML已签署多年协议,为其Gen-3 Alpha模型使用SparseCore。Runway的CTO在一次内部简报中表示,该芯片“使我们能够将推理成本降低70%,让实时视频编辑在经济上变得可行。”专注于企业工作流AI智能体的Adept AI,正在为其ACT-2模型使用SparseCore,报告称复杂多步任务的延迟降低了4倍。
在竞争格局方面,市场正在分化:
| 公司 | 架构 | 重点领域 | 关键指标 | 融资/状态 |
|---|---|---|---|---|
| 英伟达 | GPU(稠密) | 训练与通用推理 | 峰值TFLOPS | 2.2万亿美元市值 |
| 本文公司 | 稀疏ASIC | 推理(视频、智能体) | 实际吞吐量/瓦 | 670亿美元(上市后) |
| Cerebras | 晶圆级 | 训练 | 最大单芯片 | 私有(估值40亿美元) |
| Groq | LPU(张量流) | 低延迟推理 | 确定性延迟 | 私有(估值28亿美元) |
| d-Matrix | 数字存内计算 | 推理(LLM) | 能效 | 私有(融资3亿美元) |
数据要点: 这家公司占据了一个独特的利基市场。与英伟达的通用方法不同,它高度专注于将在未来十年占据主导地位的推理工作负载。其670亿美元的估值虽然很高,但仅是英伟达的一个零头,这表明市场目前将其视为互补者而非替代者。
行业影响与市场动态
此次IPO在AI硬件生态系统中引发了冲击波。最直接的影响是所有AI推理初创公司的估值被重新评估。Groq和d-Matrix现在被视为超大规模云服务商的潜在收购目标。