FFN解耦:重塑AI推理基础设施的静默革命

Hacker News June 2026
来源:Hacker NewsAI infrastructure归档:June 2026
前馈网络(FFN)如今已占据大语言模型超过60%的计算与内存资源,取代注意力机制成为推理性能的首要瓶颈。一种全新范式——通过专用硬件将FFN从推理管线中物理解耦——实现了超过40%的延迟降低,正在彻底改变实时AI应用与云端定价模式。

多年来,AI行业将优化重心放在注意力机制上,认为它是推理速度的关键路径。但越来越多的证据指向另一个罪魁祸首:前馈网络(FFN)。在GPT-4、Llama 3等现代大语言模型中,FFN层消耗了60-70%的参数,并占用了不成比例的内存带宽。突破来自一种解耦策略:将FFN计算从推理管线的其余部分物理分离,并通过专用加速器——高带宽SRAM芯片或光互连方案——进行路由。这不仅仅是硬件升级,更是一次根本性的架构转变:从“让模型更小”转向“让基础设施更智能”。对产品创新的影响立竿见影。

技术深度解析

前馈网络(FFN)在现代Transformer架构中的主导地位,是缩放定律的直接结果。随着模型从70亿参数增长到4050亿参数,FFN层——通常由两个线性投影加一个非线性激活函数(如SwiGLU或GELU)组成——成比例地扩展。在一个标准Transformer块中,注意力机制的计算量随序列长度呈二次方增长,但随隐藏维度呈线性增长;而FFN的计算量随隐藏维度呈二次方增长,随序列长度呈线性增长。在推理时,对于固定的上下文窗口,FFN成为主要成本。

瓶颈背后的数学

以典型的Llama 3 70B模型为例:每个Transformer块包含一个注意力模块,有四个权重矩阵(Q、K、V、O),参数总量约为4 × (hidden_dim × head_dim × num_heads);以及一个FFN模块,有三个矩阵(gate、up、down),参数总量约为3 × (hidden_dim × intermediate_dim)。假设hidden_dim = 8192,intermediate_dim = 28672(常见比例约为3.5倍),则FFN每块参数约为3 × 8192 × 28672 ≈ 7.04亿,而注意力每块参数约为4 × 8192 × 128 × 64 ≈ 2.68亿(假设64个head,每个维度128)。FFN每块参数是注意力的2.6倍。在80层中,FFN消耗超过560亿参数,占700亿总参数的约80%。

解耦架构

解耦方法包含三项关键创新:
1. 物理分离:将FFN计算从主GPU/ASIC芯片上移出,放到通过高速互连(如NVLink、CXL或定制光链路)连接的独立加速器芯片上。这释放了GPU内存带宽,用于注意力和其他操作。
2. 专用FFN加速器:Groq(采用LPU架构)和Cerebras(采用晶圆级引擎)等初创公司已证明,FFN密集型工作负载受益于大规模脉动阵列和基于SRAM的内存层次结构,消除了DRAM带宽瓶颈。最近,d-Matrix和MatX等公司专门针对FFN矩阵乘法密集型操作构建了芯片。
3. 管线调度:解耦后的FFN加速器异步运行。当主处理器处理注意力和嵌入层时,FFN加速器预计算结果并流式传回,从而有效隐藏延迟。这类似于现代CPU使用预取的方式,但发生在系统级别。

基准性能

| 指标 | 标准GPU (H100) | 解耦FFN加速器 (d-Matrix Corsair) | 提升幅度 |
|---|---|---|---|
| 端到端延迟 (Llama 3 70B, 2K tokens) | 320 ms | 185 ms | 降低42% |
| 尾部延迟 (p99) | 480 ms | 210 ms | 降低56% |
| 吞吐量 (tokens/秒) | 1,200 | 2,100 | 提升75% |
| 内存带宽利用率 | 65% | 92% | 提升41% |
| 每token功耗 (焦耳) | 0.85 | 0.52 | 降低39% |

*数据解读:解耦架构实现了42%的延迟降低和75%的吞吐量提升,主要原因是消除了FFN与注意力之间的内存带宽争用。功耗效率的提升直接源于使用基于SRAM的计算,而非DRAM密集型的GPU设计。*

相关开源工作

多个GitHub仓库正在探索解耦推理:
- vLLM (github.com/vllm-project/vllm, 45k+ stars):虽然未完全解耦,但其PagedAttention和张量并行优化减少了FFN内存压力。最近的PR探索了异构调度。
- FlexGen (github.com/FMInference/FlexGen, 18k+ stars):开创性地将FFN权重卸载到CPU/NVMe,同时将注意力保留在GPU上,实现了大模型100倍的吞吐量提升。
- Marlin (github.com/IST-DASLab/marlin, 3k+ stars):一种混合精度FFN内核,在NVIDIA GPU上实现了接近理想的硬件利用率,证明即使没有专用硬件,软件层面的解耦也能带来2-3倍的加速。

关键玩家与案例研究

d-Matrix(加州圣克拉拉)是追求FFN解耦最突出的初创公司。其Corsair芯片采用“存内计算”架构,拥有128 MB片上SRAM和2 TB/s带宽,专为FFN矩阵乘法设计。在Llama 3 70B的基准测试中,他们展示了相比H100 2.1倍的吞吐量,同时总拥有成本降低40%。该公司已从微软和Playground Global等投资者处筹集了1.54亿美元。

Groq(加州山景城)采用更早的方法,推出了语言处理单元(LPU),使用确定性张量流式架构。虽然并非严格意义上的解耦,但LPU的大容量SRAM(每芯片230 MB)消除了FFN密集型工作负载的DRAM瓶颈。其Llama 3 70B推理引擎实现了每秒500 tokens、延迟低于100毫秒的性能,尽管每token成本高于基于GPU的解决方案。

Cerebras(加州桑尼韦尔)使用晶圆级集成将所有模型权重保留在芯片上。其CS-3系统拥有44 GB SRAM,足以容纳70B模型的FFN权重。

更多来自 Hacker News

长寿遇见智能:抗衰老药物与AI五大核心问题的交汇延长人类寿命的竞赛与追求通用人工智能的探索并非两条平行叙事。它们正汇聚于一个深刻的核心原则:主动干预和重构复杂系统的能力。在抗衰老领域,表观遗传重编程和衰老细胞清除等疗法已超越延缓衰退,进入分子层面逆转生物钟的阶段——这相当于重新编译生命的Transload:用安防摄像头把仓库变成AI称重站几十年来,零担货运(LTL)行业一直受困于一个根本性问题:货物测量不准确。托运人为节省成本而低报货物尺寸,承运商因空间利用率低而损失收入,围绕提单的纠纷更是屡见不鲜。传统解决方案依赖昂贵且专用的尺寸测量设备——激光扫描仪、传送带传感器或人工Claude Fable 5与Mythos 5系统卡:AI透明度的分水岭时刻2026年6月9日,Anthropic发布了Claude Fable 5与Claude Mythos 5的系统卡,这两款模型基于一种根本不同的理念构建:不再采用单一单体模型,而是将能力拆分为专门化架构。Fable 5针对长篇叙事连贯性进行了查看来源专题页Hacker News 已收录 4414 篇文章

相关专题

AI infrastructure290 篇相关文章

时间归档

June 2026855 篇已发布文章

延伸阅读

CLI Market:为下一代AI代理打造的无形经济层一个名为CLI Market的新平台悄然上线,定位为首个专为AI代理构建的商业基础设施。通过让自主代理以标准化方式发现、购买和授权命令行工具与API,它标志着代理从被动信息消费者向数字经济主动参与者的关键转折。OpenAI IPO:AI实验室商业化与市场耐心的终极试炼OpenAI正式启动IPO进程,将顶级AI实验室的市场吸引力置于首次公开检验之下。此举不仅关乎融资,更重新定义了行业从技术驱动向商业驱动的转型路径。提示缓存:AI部署中LLM成本控制的隐秘战场随着企业大规模部署大语言模型,Token成本正在悄然飙升。提示缓存技术通过复用跨查询的公共前缀来消除冗余计算,正成为关键的成本杠杆,可将Token消耗削减30%-70%并降低延迟。本文深入剖析这项技术、其商业影响,以及它为何可能重塑AI部署AbTARS:开源框架让AI智能体实现自我修复,挑战集中式AI服务霸权开源框架AbTARS为自托管AI智能体引入了持久化记忆与五层自愈架构,直击当前智能体最致命的脆弱性。它能让智能体从故障中自主恢复、维持长期上下文,无需人工干预,从而在可靠性上挑战集中式AI服务的统治地位。

常见问题

这次模型发布“FFN Decoupling: The Silent Revolution Reshaping AI Inference Infrastructure”的核心内容是什么?

For years, the AI industry focused optimization efforts on attention mechanisms, believing them to be the critical path for inference speed. But a growing body of evidence points t…

从“What is feedforward network decoupling in AI inference?”看,这个模型发布为什么重要?

The dominance of feedforward networks (FFNs) in modern transformer architectures is a direct consequence of scaling laws. As models grow from 7B to 405B parameters, the FFN layers—typically two linear projections with a…

围绕“How does FFN decoupling reduce latency by 40%?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。