GateGPT：在15年前的FPGA上以每秒5.6万Token运行的Transformer开源实现

2026年6月20日 09:33 AINews GitHub June 2026

⭐ 528📈 +72

一位开发者将完整的Transformer——一个微型GPT——合成到一块老旧的Virtex-5 FPGA的纯硬件逻辑中，实现了每秒5.6万Token的生成速度。GateGPT展示了RTL级AI加速的极限，也揭示了定制芯片的未来图景。

GateGPT由开发者fguzman82创建，是一个完整的RTL（寄存器传输级）Transformer模型实现——一个微型的GPT——专门设计用于在Xilinx Virtex-5 FPGA上全速运行。该项目在生成速度上达到了惊人的每秒5.6万Token，远超典型的CPU推理性能，甚至超越了众多基于GPU的小型模型方案。这不是软核或HLS（高层次综合）抽象，而是手工编写的Verilog代码，直接将注意力头、前馈网络和嵌入表实例化为物理逻辑块。其意义有两点：第一，它证明了一块15年前的FPGA在特定AI工作负载上可以超越现代通用硬件；第二，它为任何希望构建自定义AI加速器的人提供了一份完全开源的蓝图。

技术深度解析

GateGPT是Transformer硬件-软件协同设计的典范之作。该项目将一个约150万参数的微型GPT模型完全以Verilog RTL实现。架构分为三大模块：嵌入查找表、多头注意力模块和前馈网络（FFN）。每个模块都被综合为Virtex-5 LX50T FPGA上的专用逻辑。

注意力机制实现为一个乘累加（MAC）单元的脉动阵列，并行处理查询、键和值。在硬件中成本高昂的softmax函数，通过分段线性查找表结合快速指数模块进行近似计算。FFN使用两个全连接层，激活函数为GELU，同样通过查找表实现，以避免浮点除法。

关键工程决策：
- 定点运算：所有权重和激活值使用8位整数（INT8）量化，并采用自定义的4位指数来扩展动态范围。相比FP16，逻辑资源占用减少4倍。
- 流水线数据流：设计完全流水线化，在100MHz时钟频率下每18个时钟周期生成一个新Token，从而实现了每秒5.6万Token的性能。
- 片上内存：Virtex-5仅有2.1 MB的Block RAM，因此嵌入表（约1 MB，对应1万Token词表）存储在分布式RAM中，而注意力权重则通过自定义控制器从片外DDR2流式加载。

基准测试对比（同类模型推理速度）：

| 平台 | 模型大小 | Token/秒 | 功耗 (W) | 成本 (USD) |
|---|---|---|---|---|
| GateGPT (Virtex-5) | 150万参数 | 56,000 | 8 | $50 (二手FPGA开发板) |
| Raspberry Pi 4 (CPU) | 150万参数 | 1,200 | 7.5 | $35 |
| NVIDIA Jetson Nano (GPU) | 150万参数 | 18,000 | 10 | $99 |
| RTX 4090 (GPU) | 150万参数 | 240,000 | 450 | $1,600 |

数据解读： 在15年前的FPGA上运行的GateGPT，其每瓦吞吐量与现代的Jetson Nano相当，而成本仅为后者的一半。RTX 4090速度快4倍，但功耗高出56倍，成本高出32倍。对于功耗和成本受限的边缘部署场景，GateGPT的方案极具竞争力。

GitHub仓库（fguzman82/gategpt）包含了完整的Verilog源代码、一个测试平台，以及一个用于从PyTorch训练的微型GPT中导出权重的Python脚本。该项目正在积极维护中，最近的提交改进了DDR2控制器，并增加了用于实时Token生成的UART接口。

关键参与者与案例研究

该项目由一位独立开发者fguzman82完成，其背景包括为国防应用设计FPGA。这不是企业研发项目，而是一次个人演示，展示了使用开源硬件工具（Yosys、nextpnr以及针对Xilinx FPGA的开源VPR流程）所能实现的成果。

然而，其影响波及多个关键参与者：
- AMD/Xilinx：Virtex-5系列已停产，但设计原理适用于Artix-7或Kintex Ultrascale等现代FPGA。AMD可将此作为航空航天和国防领域AI加速的参考设计。
- Google (TPU)：Google的TPUv1同样是一个用于矩阵乘法的脉动阵列，但它是ASIC而非FPGA。GateGPT表明，类似的架构可以在可重构逻辑上进行原型验证。
- Groq：Groq的LPU（语言处理单元）采用确定性、软件定义的架构。GateGPT的流水线化、无缓存缺失的设计在理念上与Groq的方法一致，但成本仅为其零头。
- 边缘AI初创公司：像Mythic（模拟AI）、Flex Logix和Quadric这样的公司正在为边缘推理构建NPU。GateGPT提供了一个免费、开源的替代方案，可根据特定模型进行定制。

边缘AI硬件方案对比：

| 方案 | 类型 | 灵活性 | 功耗 (W) | Token/秒 (150万参数模型) |
|---|---|---|---|---|
| GateGPT | FPGA | 高（可重构） | 8 | 56,000 |
| Mythic M1076 | 模拟ASIC | 低（固定模型） | 0.5 | 30,000 |
| Flex Logix EFLX | eFPGA | 高 | 2 | 40,000 |
| NVIDIA Jetson Orin NX | GPU | 中 | 15 | 120,000 |

数据解读： GateGPT的FPGA方案在小型模型上提供了灵活性与性能的最佳平衡，尽管在能效上落后于专用ASIC。对于需要频繁更新模型的应用（例如联邦学习），可重构性是一个决定性的优势。

行业影响与市场动态

GateGPT的出现正值一个关键转折点。AI芯片市场预计将从2023年的530亿美元增长到2032年的2270亿美元（年复合增长率18%）。然而，这一增长由少数几家销售高利润通用加速器的厂商（NVIDIA、AMD、Google）主导。GateGPT对此提出了挑战：它表明，一块50美元的FPGA在特定工作负载上可以胜过1600美元的GPU——前提是你愿意投入RTL设计。

其影响在三个领域最为显著：
1. 边缘AI：智能传感器、物联网设备和机器人需要低延迟和低功耗。

常见问题

GitHub 热点“GateGPT: The Open-Source Transformer That Runs on a 15-Year-Old FPGA at 56k Tokens/Second”主要讲了什么？

GateGPT, created by developer fguzman82, is a full RTL (Register Transfer Level) implementation of a Transformer model — a microGPT — designed to run entirely on a Xilinx Virtex-5…

这个 GitHub 项目在“How to run GateGPT on a Virtex-5 FPGA”上为什么会引发关注？

GateGPT is a masterclass in hardware-software co-design for transformers. The project implements a miniature GPT-like model — roughly 1.5 million parameters — entirely in Verilog RTL. The architecture is divided into thr…

从“GateGPT vs GPU inference speed comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 528，近一日增长约为 72，这说明它在开源社区具有较强讨论度和扩散能力。

GateGPT：在15年前的FPGA上以每秒5.6万Token运行的Transformer开源实现

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 GitHub

时间归档

延伸阅读

常见问题