GateGPT:在15年前的FPGA上以每秒5.6万Token运行的Transformer开源实现

GitHub June 2026
⭐ 528📈 +72
来源:GitHub归档:June 2026
一位开发者将完整的Transformer——一个微型GPT——合成到一块老旧的Virtex-5 FPGA的纯硬件逻辑中,实现了每秒5.6万Token的生成速度。GateGPT展示了RTL级AI加速的极限,也揭示了定制芯片的未来图景。

GateGPT由开发者fguzman82创建,是一个完整的RTL(寄存器传输级)Transformer模型实现——一个微型的GPT——专门设计用于在Xilinx Virtex-5 FPGA上全速运行。该项目在生成速度上达到了惊人的每秒5.6万Token,远超典型的CPU推理性能,甚至超越了众多基于GPU的小型模型方案。这不是软核或HLS(高层次综合)抽象,而是手工编写的Verilog代码,直接将注意力头、前馈网络和嵌入表实例化为物理逻辑块。其意义有两点:第一,它证明了一块15年前的FPGA在特定AI工作负载上可以超越现代通用硬件;第二,它为任何希望构建自定义AI加速器的人提供了一份完全开源的蓝图。

技术深度解析

GateGPT是Transformer硬件-软件协同设计的典范之作。该项目将一个约150万参数的微型GPT模型完全以Verilog RTL实现。架构分为三大模块:嵌入查找表、多头注意力模块和前馈网络(FFN)。每个模块都被综合为Virtex-5 LX50T FPGA上的专用逻辑。

注意力机制实现为一个乘累加(MAC)单元的脉动阵列,并行处理查询、键和值。在硬件中成本高昂的softmax函数,通过分段线性查找表结合快速指数模块进行近似计算。FFN使用两个全连接层,激活函数为GELU,同样通过查找表实现,以避免浮点除法。

关键工程决策:
- 定点运算:所有权重和激活值使用8位整数(INT8)量化,并采用自定义的4位指数来扩展动态范围。相比FP16,逻辑资源占用减少4倍。
- 流水线数据流:设计完全流水线化,在100MHz时钟频率下每18个时钟周期生成一个新Token,从而实现了每秒5.6万Token的性能。
- 片上内存:Virtex-5仅有2.1 MB的Block RAM,因此嵌入表(约1 MB,对应1万Token词表)存储在分布式RAM中,而注意力权重则通过自定义控制器从片外DDR2流式加载。

基准测试对比(同类模型推理速度):

| 平台 | 模型大小 | Token/秒 | 功耗 (W) | 成本 (USD) |
|---|---|---|---|---|
| GateGPT (Virtex-5) | 150万参数 | 56,000 | 8 | $50 (二手FPGA开发板) |
| Raspberry Pi 4 (CPU) | 150万参数 | 1,200 | 7.5 | $35 |
| NVIDIA Jetson Nano (GPU) | 150万参数 | 18,000 | 10 | $99 |
| RTX 4090 (GPU) | 150万参数 | 240,000 | 450 | $1,600 |

数据解读: 在15年前的FPGA上运行的GateGPT,其每瓦吞吐量与现代的Jetson Nano相当,而成本仅为后者的一半。RTX 4090速度快4倍,但功耗高出56倍,成本高出32倍。对于功耗和成本受限的边缘部署场景,GateGPT的方案极具竞争力。

GitHub仓库(fguzman82/gategpt)包含了完整的Verilog源代码、一个测试平台,以及一个用于从PyTorch训练的微型GPT中导出权重的Python脚本。该项目正在积极维护中,最近的提交改进了DDR2控制器,并增加了用于实时Token生成的UART接口。

关键参与者与案例研究

该项目由一位独立开发者fguzman82完成,其背景包括为国防应用设计FPGA。这不是企业研发项目,而是一次个人演示,展示了使用开源硬件工具(Yosys、nextpnr以及针对Xilinx FPGA的开源VPR流程)所能实现的成果。

然而,其影响波及多个关键参与者:
- AMD/Xilinx:Virtex-5系列已停产,但设计原理适用于Artix-7或Kintex Ultrascale等现代FPGA。AMD可将此作为航空航天和国防领域AI加速的参考设计。
- Google (TPU):Google的TPUv1同样是一个用于矩阵乘法的脉动阵列,但它是ASIC而非FPGA。GateGPT表明,类似的架构可以在可重构逻辑上进行原型验证。
- Groq:Groq的LPU(语言处理单元)采用确定性、软件定义的架构。GateGPT的流水线化、无缓存缺失的设计在理念上与Groq的方法一致,但成本仅为其零头。
- 边缘AI初创公司:像Mythic(模拟AI)、Flex Logix和Quadric这样的公司正在为边缘推理构建NPU。GateGPT提供了一个免费、开源的替代方案,可根据特定模型进行定制。

边缘AI硬件方案对比:

| 方案 | 类型 | 灵活性 | 功耗 (W) | Token/秒 (150万参数模型) |
|---|---|---|---|---|
| GateGPT | FPGA | 高(可重构) | 8 | 56,000 |
| Mythic M1076 | 模拟ASIC | 低(固定模型) | 0.5 | 30,000 |
| Flex Logix EFLX | eFPGA | 高 | 2 | 40,000 |
| NVIDIA Jetson Orin NX | GPU | 中 | 15 | 120,000 |

数据解读: GateGPT的FPGA方案在小型模型上提供了灵活性与性能的最佳平衡,尽管在能效上落后于专用ASIC。对于需要频繁更新模型的应用(例如联邦学习),可重构性是一个决定性的优势。

行业影响与市场动态

GateGPT的出现正值一个关键转折点。AI芯片市场预计将从2023年的530亿美元增长到2032年的2270亿美元(年复合增长率18%)。然而,这一增长由少数几家销售高利润通用加速器的厂商(NVIDIA、AMD、Google)主导。GateGPT对此提出了挑战:它表明,一块50美元的FPGA在特定工作负载上可以胜过1600美元的GPU——前提是你愿意投入RTL设计。

其影响在三个领域最为显著:
1. 边缘AI:智能传感器、物联网设备和机器人需要低延迟和低功耗。

更多来自 GitHub

Drawio-Skill:自然语言绘图如何重新定义AI智能体生产力Drawio-skill托管于GitHub上的agents365-ai/drawio-skill仓库,是一项AI智能体技能,可将自然语言提示转化为完全可编辑的draw.io图表。该工具上线时即提供6种预设图表类型(流程图、时序图、类图、ERNapCatQQ:重塑QQ机器人开发的底层协议框架NapCatQQ已成为QQ生态开发者们的关键基础设施。与在应用层运行的传统机器人框架不同,NapCatQQ在协议层工作,直接封装并优化NTQQ(New Technology QQ)协议。这使得开发者能够实现此前难以达成的自定义扩展、高效消息MarkText Plus:Flutter 重写 Markdown 编辑器,挑战桌面巨头Markdown 编辑领域迎来了一位新挑战者:MarkText Plus(GitHub 仓库:sugarfatfree/marktext-plus)。该项目并非简单的分支,而是对原版 MarkText——一款流行但基于 Electron 的查看来源专题页GitHub 已收录 2853 篇文章

时间归档

June 20261981 篇已发布文章

延伸阅读

Drawio-Skill:自然语言绘图如何重新定义AI智能体生产力一款名为drawio-skill的开源AI智能体技能,正以前所未有的精度将自然语言描述转化为专业的draw.io图表。凭借4188颗GitHub星标和一套五轮自我优化循环,它承诺让非技术用户也能轻松创建图表,同时大幅提升开发者的工作效率。NapCatQQ:重塑QQ机器人开发的底层协议框架NapCatQQ,一个基于NTQQ构建的协议层框架,在GitHub上迅速蹿升至9535颗星,日均新增221星。它为开发者提供了前所未有的QQ机器人开发灵活性,但其深度的协议访问能力也伴随着显著的风险和陡峭的学习曲线。MarkText Plus:Flutter 重写 Markdown 编辑器,挑战桌面巨头开源新星 MarkText Plus 用 Flutter 彻底重构了备受喜爱的 MarkText 编辑器,承诺带来原生级性能与真正的跨平台一致性,直击原版在移动端的致命短板。这不仅是一次技术升级,更可能重塑 Markdown 编辑器的竞争格MarkText:开源Markdown编辑器如何以57,000+星标挑战Typora霸主地位一款名为MarkText的开源Markdown编辑器正以57,570个GitHub星标和每日65星的增长速度迅速崛起,成为Typora的免费优雅替代品。其实时预览、数学公式支持以及虚拟滚动技术,使其在作家、开发者和笔记用户中成为不可忽视的竞

常见问题

GitHub 热点“GateGPT: The Open-Source Transformer That Runs on a 15-Year-Old FPGA at 56k Tokens/Second”主要讲了什么?

GateGPT, created by developer fguzman82, is a full RTL (Register Transfer Level) implementation of a Transformer model — a microGPT — designed to run entirely on a Xilinx Virtex-5…

这个 GitHub 项目在“How to run GateGPT on a Virtex-5 FPGA”上为什么会引发关注?

GateGPT is a masterclass in hardware-software co-design for transformers. The project implements a miniature GPT-like model — roughly 1.5 million parameters — entirely in Verilog RTL. The architecture is divided into thr…

从“GateGPT vs GPU inference speed comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 528,近一日增长约为 72,这说明它在开源社区具有较强讨论度和扩散能力。