技术深度解析
算妙的3D TokenPU代表了对AI加速器设计的根本性反思。其核心洞察在于:现代生成式AI工作负载——从大语言模型到基于扩散模型的视频生成器——共享一个基础计算原语:Token。传统GPU架构针对卷积网络中的密集矩阵乘法运算进行了优化,但在处理Transformer稀疏且由注意力驱动的模式时,会在计算单元与内存库之间搬运数据,浪费大量能量。
3D TokenPU通过三项关键创新解决了这一问题:
1. 以Token为中心的数据流引擎:芯片的计算结构并非调度线程束,而是围绕一个由“Token处理器”组成的脉动阵列来组织。每个处理器处理一个或多个Token位置,并包含用于缩放点积注意力(SDPA)、前馈网络(FFN)计算和Softmax归一化的专用硬件。控制逻辑被一个轻量级Token调度器取代,该调度器根据序列长度和批量大小动态地将Token分配给处理器,从而消除了GPU在处理变长序列时饱受困扰的线程束发散惩罚。
2. 3D混合内存层级:该芯片采用面对面混合键合技术堆叠了三层:基础逻辑芯片(包含Token处理器和全局互连)、中间SRAM缓存芯片(128 MB片上SRAM,组织为Token缓冲区)以及顶层DRAM芯片(8 GB定制高带宽内存,针对低延迟而非峰值带宽优化)。与传统的GDDR或HBM实现相比,这种3D堆叠将计算单元与内存之间的物理距离缩短了一个数量级,将每次访问能耗从约10 pJ(HBM)降至约2 pJ。
3. 稀疏注意力加速器:一个专用的稀疏注意力单元利用了注意力矩阵中固有的稀疏性。通过跳过零值或接近零值的注意力分数(在长上下文模型中很常见),该芯片在超过4K Token的序列上可实现2-4倍的有效吞吐量提升。这是通过一个自定义查找表实现的,该表基于学习到的阈值动态剪枝注意力头,且无需重新训练模型。
基准测试预测(模拟 vs. NVIDIA H100)
| 工作负载 | 指标 | NVIDIA H100 | 3D TokenPU(模拟) | 提升幅度 |
|---|---|---|---|---|
| Llama 3 70B(batch=1, seq=2048) | Tokens/秒 | 1,250 | 1,890 | +51% |
| Llama 3 70B(batch=32, seq=2048) | Tokens/秒 | 18,400 | 28,700 | +56% |
| 视频扩散(Sora级, 512x512, 16帧) | 秒/帧 | 12.4 | 8.1 | -35% 延迟 |
| GPT-4级(batch=1, seq=8192) | Tokens/秒 | 480 | 820 | +71% |
| 能效 | Tokens/焦耳 | 1.2 | 2.8 | +133% |
数据要点: 3D TokenPU在LLM推理上展现出50-70%的吞吐量提升,在视频生成上实现35%的延迟降低,能效更是翻倍有余。这些优势在较长序列长度上最为显著,因为稀疏注意力单元和减少的数据搬运带来了复合增益。
在软件方面,算妙已开源了一个名为TokenCC的编译器工具链(GitHub: suanmiao/tokencc,约3.2k星标),该工具可接收PyTorch或ONNX模型,并将其映射到TokenPU的数据流架构上。编译器自动执行Token级图分区、3D堆叠内存分配以及稀疏注意力原语的插入。早期开发者报告显示,移植标准Llama模型仅需修改10-20行代码,但对于具有自定义注意力变体(如FlashAttention-2)的更复杂模型,则需要手动调优。
关键参与者与案例研究
算妙科技成立于2021年,由前某中国大型GPU设计公司首席架构师李伟博士和来自顶尖高校的内存系统研究员陈芳博士共同创立。该公司已通过三轮融资筹集了2.8亿美元,主要投资者包括一家国家支持的半导体基金和一家中国主要云服务提供商。
3D TokenPU的主要竞争来自三个方向:
1. 国产GPU替代方案:壁仞科技(BR100)、摩尔线程(MTT S4000)和天数智芯(BI-V100)等公司均已生产出运行类CUDA生态的通用GPU。然而,这些芯片在运行Transformer模型时仍存在与NVIDIA GPU相同的架构性低效——它们针对图形和HPC进行了优化,而非Token处理。
2. 领域专用NPU:华为的昇腾910B和寒武纪的MLU370是配备专用张量核的神经处理单元。虽然它们对于固定形状的模型能提供比GPU更好的效率,但在处理现代生成式AI的动态序列长度和稀疏注意力模式时则力不从心。
3. 云服务商定制ASIC:阿里巴巴的含光800和腾讯的紫霄芯片专为特定的内部工作负载设计。它们实现了高效率,但缺乏算妙所追求的可编程性和生态广度。