技术深度解析
前馈网络(FFN)在现代Transformer架构中的主导地位,是缩放定律的直接结果。随着模型从70亿参数增长到4050亿参数,FFN层——通常由两个线性投影加一个非线性激活函数(如SwiGLU或GELU)组成——成比例地扩展。在一个标准Transformer块中,注意力机制的计算量随序列长度呈二次方增长,但随隐藏维度呈线性增长;而FFN的计算量随隐藏维度呈二次方增长,随序列长度呈线性增长。在推理时,对于固定的上下文窗口,FFN成为主要成本。
瓶颈背后的数学
以典型的Llama 3 70B模型为例:每个Transformer块包含一个注意力模块,有四个权重矩阵(Q、K、V、O),参数总量约为4 × (hidden_dim × head_dim × num_heads);以及一个FFN模块,有三个矩阵(gate、up、down),参数总量约为3 × (hidden_dim × intermediate_dim)。假设hidden_dim = 8192,intermediate_dim = 28672(常见比例约为3.5倍),则FFN每块参数约为3 × 8192 × 28672 ≈ 7.04亿,而注意力每块参数约为4 × 8192 × 128 × 64 ≈ 2.68亿(假设64个head,每个维度128)。FFN每块参数是注意力的2.6倍。在80层中,FFN消耗超过560亿参数,占700亿总参数的约80%。
解耦架构
解耦方法包含三项关键创新:
1. 物理分离:将FFN计算从主GPU/ASIC芯片上移出,放到通过高速互连(如NVLink、CXL或定制光链路)连接的独立加速器芯片上。这释放了GPU内存带宽,用于注意力和其他操作。
2. 专用FFN加速器:Groq(采用LPU架构)和Cerebras(采用晶圆级引擎)等初创公司已证明,FFN密集型工作负载受益于大规模脉动阵列和基于SRAM的内存层次结构,消除了DRAM带宽瓶颈。最近,d-Matrix和MatX等公司专门针对FFN矩阵乘法密集型操作构建了芯片。
3. 管线调度:解耦后的FFN加速器异步运行。当主处理器处理注意力和嵌入层时,FFN加速器预计算结果并流式传回,从而有效隐藏延迟。这类似于现代CPU使用预取的方式,但发生在系统级别。
基准性能
| 指标 | 标准GPU (H100) | 解耦FFN加速器 (d-Matrix Corsair) | 提升幅度 |
|---|---|---|---|
| 端到端延迟 (Llama 3 70B, 2K tokens) | 320 ms | 185 ms | 降低42% |
| 尾部延迟 (p99) | 480 ms | 210 ms | 降低56% |
| 吞吐量 (tokens/秒) | 1,200 | 2,100 | 提升75% |
| 内存带宽利用率 | 65% | 92% | 提升41% |
| 每token功耗 (焦耳) | 0.85 | 0.52 | 降低39% |
*数据解读:解耦架构实现了42%的延迟降低和75%的吞吐量提升,主要原因是消除了FFN与注意力之间的内存带宽争用。功耗效率的提升直接源于使用基于SRAM的计算,而非DRAM密集型的GPU设计。*
相关开源工作
多个GitHub仓库正在探索解耦推理:
- vLLM (github.com/vllm-project/vllm, 45k+ stars):虽然未完全解耦,但其PagedAttention和张量并行优化减少了FFN内存压力。最近的PR探索了异构调度。
- FlexGen (github.com/FMInference/FlexGen, 18k+ stars):开创性地将FFN权重卸载到CPU/NVMe,同时将注意力保留在GPU上,实现了大模型100倍的吞吐量提升。
- Marlin (github.com/IST-DASLab/marlin, 3k+ stars):一种混合精度FFN内核,在NVIDIA GPU上实现了接近理想的硬件利用率,证明即使没有专用硬件,软件层面的解耦也能带来2-3倍的加速。
关键玩家与案例研究
d-Matrix(加州圣克拉拉)是追求FFN解耦最突出的初创公司。其Corsair芯片采用“存内计算”架构,拥有128 MB片上SRAM和2 TB/s带宽,专为FFN矩阵乘法设计。在Llama 3 70B的基准测试中,他们展示了相比H100 2.1倍的吞吐量,同时总拥有成本降低40%。该公司已从微软和Playground Global等投资者处筹集了1.54亿美元。
Groq(加州山景城)采用更早的方法,推出了语言处理单元(LPU),使用确定性张量流式架构。虽然并非严格意义上的解耦,但LPU的大容量SRAM(每芯片230 MB)消除了FFN密集型工作负载的DRAM瓶颈。其Llama 3 70B推理引擎实现了每秒500 tokens、延迟低于100毫秒的性能,尽管每token成本高于基于GPU的解决方案。
Cerebras(加州桑尼韦尔)使用晶圆级集成将所有模型权重保留在芯片上。其CS-3系统拥有44 GB SRAM,足以容纳70B模型的FFN权重。