技术深度解析
曦智科技的架构理念代表了对推理时代GPU设计的根本性重新思考。与必须处理从科学计算到图形渲染等多种工作负载的通用GPU不同,S系列芯片专门针对基于Transformer的推理的数学模式进行了优化。
近期技术披露中详述的S3架构采用了多项创新方法。首先,它采用了异构张量核心设计,拥有针对不同精度格式优化的独立单元:INT4/INT8用于权重-激活运算,FP16用于注意力评分,以及一种新颖的BF12格式用于中间激活,在精度与内存带宽效率之间取得平衡。这与英伟达H100在整个芯片上使用统一的FP8/FP16张量核心形成对比。
其次,曦智实现了他们称之为 “确定性执行流水线” 的硬件调度逻辑,保证关键推理操作在最坏情况下的延迟上限。这是通过专用的片上SRAM(S3为96MB,S2为50MB)实现的,这些SRAM以分层缓存结构组织,最大限度地减少了KV缓存读取等常见推理模式对DRAM的访问。
第三,S3在硬件层面引入了推测解码加速。随着AI智能体越来越多地使用思维链推理,该芯片包含了专用单元,可以并行执行多个可能的token序列,然后选择最优路径——根据内部基准测试,这能将复杂智能体工作流的延迟降低高达40%。
一个关键的差异化因素是曦智的软件栈 InferLink。与CUDA的通用方法不同,InferLink为常见的推理模式提供了高级API:
```python
# 用于智能体部署的InferLink API示例
agent_engine = sunrise.AgentRuntime(
model="llama-3-70b",
speculative_decoding=True,
kv_cache_optimization="dynamic",
latency_sla=100ms
)
```
其生态系统的开源组件 Sunrise-MLIR(在GitHub上提供,sunrise-compiler/mlir-opt,2.3k stars)专门为推理图提供编译器优化。最近的提交显示,在针对Transformer块的自动算子融合以及兼顾延迟要求和吞吐量优化的动态批处理算法方面取得了进展。
| 指标 | 曦智 S3 | 英伟达 L4 | 英伟达 H20 | Habana Gaudi2 |
|------------------|-------------|---------------|----------------|-------------------|
| INT8 TOPS | 1,200 | 242 | 740 | 1,800 |
| FP16 TFLOPS | 600 | 31.3 | 148 | 900 |
| 内存带宽 | 1.2 TB/s | 300 GB/s | 4.8 TB/s | 2.45 TB/s |
| TDP | 250W | 72W | 400W | 600W |
| Tokens/sec (70B LLM) | 85 | 18 | 42 | 95 |
| 能效 (性能/瓦特) | 0.34 tokens/J | 0.25 tokens/J | 0.105 tokens/J | 0.158 tokens/J |
数据要点: S3在推理的能效(每瓦性能)上显示出明确的专业化优势,比英伟达L4效率高36%,比H20高3.2倍。然而,它在通用计算能力和内存带宽方面与H20进行了权衡,突显了该架构专注优化的特点。
主要参与者与案例研究
推理芯片领域已从通用GPU主导的单一市场,迅速演变为拥有多种专业化方法的碎片化生态系统。曦智科技正在一个日益拥挤但具有重要战略意义的细分市场中竞争。
英伟达 凭借其推理优化的L4和L40S GPU,以及中国特供版H20,仍然是市场上的巨无霸。他们的优势在于CUDA成熟的生态系统以及提供统一训练/推理平台的能力。然而,其通用架构不可避免地带有专用设计可以避免的开销。
AMD 凭借MI300X取得了重大进展,该芯片提供了对大模型推理至关重要的卓越内存带宽(5.2TB/s)。他们的ROCm软件栈,虽然历史上落后于CUDA,但在过去一年中在Transformer优化方面显示出显著改进。
初创公司竞争对手: 多家中国初创公司正在追求类似的专精化策略。燧原科技(Iluvatar CoreX) 专注于其GCU芯片的图神经网络推理,而燧原科技(Enflame) 则采用了不同的方法,其DTU系列使用小芯片技术实现可扩展性。曦智的与众不同之处在于其纯推理的专注——其他公司仍保留一定的训练能力,而曦智则完全取消了训练专用硬件,以最大化推理效率。
云厂商ASIC: 阿里巴巴的含光800、百度的昆仑和腾讯的紫霄代表了垂直整合模式。这些芯片专门针对其母公司的推理工作负载进行了优化,但缺乏曦智方法的普遍适用性。曦智的赌注是,一个横向的、与供应商无关的推理平台将能够捕获更广泛的企业市场,这些企业不希望被锁定在单一的云生态系统中。