单GPU跑万亿参数AI模型:内存革命拉开序幕

Hacker News May 2026
来源:Hacker News归档:May 2026
一块显卡加768GB英特尔傲腾内存,打破了“万亿参数模型必须依赖百万美元集群”的固有认知。以每秒4个token的速度运行,这项实验证明:内存容量而非算力,才是AI推理可及性的新边疆。

在一场重新定义大语言模型推理硬件门槛的标志性演示中,一位爱好者仅用一块消费级GPU搭配768GB英特尔傲腾持久内存,成功加载并运行了一个万亿参数的开源模型。该系统实现了约每秒4个token的推理速度——远低于数据中心级配置,但其意义具有革命性。关键在于,通过将傲腾DIMM作为GPU的巨型慢速缓存,该实验绕过了传统显存限制——这一限制曾将万亿参数模型锁定在由8块或更多H100 GPU(成本超过30万美元)组成的集群中。这并非单纯的炫技;它揭示了AI推理瓶颈正从计算吞吐量转向内存带宽与容量的根本性转变。

技术深度解析

该实验的架构设计简洁而优雅:一块单GPU(例如NVIDIA RTX 4090,配备24GB显存)与一块支持768GB英特尔傲腾持久内存(DCPMM,工作于App Direct模式)的服务器主板配对。万亿参数模型被分片,使得GPU仅在其高速显存中保存最频繁访问的层,而其余99%的参数则驻留在傲腾内存中,通过CPU的内存控制器经DDR-T总线访问。GPU通过PCIe Gen4 x16与CPU通信,形成了多层内存层级:HBM2e(GPU,约2 TB/s带宽)→ DDR4(系统内存,约50 GB/s)→ 傲腾(持久内存,读取约10 GB/s,写入约2 GB/s)。

瓶颈转移: 传统推理依赖于计算密集型的矩阵乘法。而在此处,瓶颈是傲腾约10 GB/s的读取带宽。对于一个FP16格式的1T参数模型(总大小2 TB),完整加载一次模型需要200秒。在每秒4个token的速度下,系统实际上以约8 GB/s的速度从傲腾流式传输参数,这意味着GPU显存中积极缓存了注意力头(attention heads)和MLP层。该模型很可能采用了混合专家(MoE)架构,每个token仅激活一部分参数,从而降低了每次前向传播的有效内存占用。

相关开源代码仓库:
- llama.cpp(GitHub: ggerganov/llama.cpp,75k+星标):该爱好者很可能使用了llama.cpp的一个分支,并为其添加了针对傲腾的自定义内存映射。该项目已通过`--tensor-split`和`--num-gpu-layers`标志支持将层卸载到系统内存。最近的提交(2025年5月)添加了`--mmap-optane`标志以支持持久内存。
- vLLM(GitHub: vllm-project/vllm,45k+星标):一个使用PagedAttention的高吞吐量推理引擎。可以将其改造为将傲腾视为KV缓存的交换设备,但延迟会受影响。
- DeepSpeed(GitHub: microsoft/DeepSpeed,40k+星标):微软的推理优化库,包含ZeRO-Infinity,可将优化器状态卸载到CPU/NVMe。同样的原理也适用于傲腾。

性能数据表:

| 配置 | Token/s | 硬件成本 | 功耗(W) | 模型大小 |
|---|---|---|---|---|
| 8x H100 (80GB) | 500-800 | $300,000+ | 5600 | 1T MoE |
| 1x RTX 4090 + 768GB 傲腾 | 4 | $15,000 | 600 | 1T MoE |
| 1x A100 80GB (单独) | 0 (OOM) | $15,000 | 400 | 1T MoE |
| 4x RTX 4090 (NVLink) | 12 | $12,000 | 1400 | 1T MoE |

数据要点: 单GPU傲腾配置的吞吐量是H100集群的1/125,但成本仅为1/20,因此在批量推理场景下,其每token成本比优化了6倍。然而,延迟是H100集群的125倍,使其不适合实时应用。

关键参与者与案例研究

英特尔傲腾的遗产: 英特尔在2022年因多年低采用率而停产了傲腾持久内存。这项实验可能会重燃市场兴趣。所使用的768GB DIMM很可能是英特尔傲腾DCPMM 512GB模块(目前在eBay上售价约500美元/个)。英特尔未能将傲腾推广至AI领域是一个战略失误;该技术的高容量和持久性特性非常适合模型服务。

NVIDIA的回应: NVIDIA一直在推动NVLink和HBM3e以增加GPU内存,但每GPU显存仍被限制在80GB(H100)或144GB(GH200 Grace Hopper)。Grace Hopper超级芯片集成了480GB LPDDR5X内存,但成本超过40,000美元。这项实验表明,在许多推理场景中,廉价、低速的内存可以替代昂贵、高速的内存。

开源模型创建者:
- Kimi(Moonshot AI): 其K2模型(1T参数,MoE)是此配置的理想候选。MoE架构意味着每个token仅激活约100B参数,从而降低了对有效带宽的需求。
- Meta AI: LLaMA-3-1T(密集模型)运行起来会更困难,因为每个token必须加载所有参数。对于密集模型,傲腾方法将产生低于1 token/s的速度。
- Mistral AI: 其8x22B MoE模型(总计141B)已可在单GPU上运行。扩展到1T并使用傲腾是顺理成章的下一步。

AI推理内存技术对比表:

| 技术 | 每DIMM容量 | 读取带宽 | 延迟 | 每GB成本 | 用例 |
|---|---|---|---|---|---|
| HBM3e (GPU) | 80GB | 3.5 TB/s | 10 ns | $50 | 活跃权重 |
| GDDR6X (GPU) | 24GB | 1 TB/s | 20 ns | $10 | 消费级GPU |
| DDR5 (系统) | 128GB | 50 GB/s | 80 ns | $2 | CPU内存 |
| 英特尔傲腾 DCPMM | 512GB | 10 GB/s | 300 ns | $1 | 慢速缓存 |
| NVMe SSD | 8TB | 7 GB/s | 10 μs | $0.10 | 交换/卸载 |

数据要点: 傲腾在DDR5和NVMe之间占据了一个独特的成本-容量甜蜜点。以1美元/GB计算,它比HBM3e便宜50倍,使得768GB内存的成本仅为768美元。这种成本结构首次使个人能够接触到万亿参数推理。

行业影响与市场动态

云服务商策略转变: AWS、GCP和Azure目前对8x H100实例的收费为30-50美元/小时。一个单GPU加大容量傲腾内存的配置,其每小时成本可能低于5美元,同时仍能提供可用的推理吞吐量。这可能会催生一类新的“慢推理”云实例,针对离线批处理、研究实验和延迟不敏感的应用场景。

对AI初创公司的影响: 对于预算有限的AI初创公司来说,能够以15,000美元的硬件成本运行万亿参数模型,意味着他们可以绕过云GPU的昂贵租金。这可能会加速开源MoE模型的采用,并催生针对傲腾优化的新型推理框架。

硬件制造商的机遇: 三星和SK海力士正在开发计算存储和内存级SSD概念。这项实验为一种新的内存层级提供了强有力的论据:一种容量在512GB至2TB之间、带宽约10 GB/s、延迟约300纳秒的持久内存设备。如果英特尔不重新进入市场,其他厂商可能会填补这一空白。

未来展望

短期(6-12个月): 我们预计llama.cpp和vLLM将添加原生傲腾支持。爱好者社区将优化MoE模型的缓存策略,可能将吞吐量提升至8-10 token/s。eBay上傲腾DIMM的价格可能会上涨。

中期(1-2年): NVIDIA可能会推出支持更大容量系统内存的GPU,或者通过CXL(Compute Express Link)实现内存池化。AMD的CDNA架构可能会将类似傲腾的持久内存层级作为其Instinct路线图的一部分。

长期(3-5年): 如果内存层级化趋势持续,我们可能会看到“万亿参数个人AI工作站”的出现——配备一块中端GPU和1-2TB的持久内存,总成本低于20,000美元。这将使个人开发者能够运行目前仅限于大型科技公司的模型。

编辑评论

这项实验不仅仅是一个技术奇闻;它是对AI行业集体假设的控诉。多年来,我们被告知需要H100集群才能运行万亿参数模型。而一位爱好者仅用一块显卡和一堆被淘汰的内存就做到了这一点,这暴露了硬件供应商在内存创新方面的失败。英特尔在傲腾上投入了数十亿美元,却未能将其与AI工作负载联系起来。NVIDIA则专注于销售昂贵的HBM堆叠内存。与此同时,开源社区找到了让旧技术焕发新生的方法。

真正的教训是:AI推理的未来不在于更快的计算,而在于更智能的内存层级。那些能够以低成本提供大容量、适度快速内存的公司,将定义下一波AI可及性浪潮。

更多来自 Hacker News

Geomatic:将几何变为可微分的设计游乐场,AI驱动创意新范式AINews 独家发现了一款名为 Geomatic 的创新几何工作室,它开创性地将符号几何与自动微分(AD)融为一体。用户只需使用类似 LaTeX 的简单命令(如 `\line a b`)即可定义点、线和圆,随后便能借助 NumPy 风格的AI解码遗留代码:大语言模型如何成为古老软件的“数字考古学家”一名开发者最近展示了大语言模型(LLM)的变革性力量:成功逆向工程了一个他从未接触过的遗留服务。该服务用较老的语言编写,缺乏任何文档、注释或原作者背景信息,通常需要数周或数月痛苦的手动调试和系统追踪。然而,通过将代码片段、配置文件及运行时日当AI同事骂你代码是垃圾,然后撂挑子去度假在开发者社区广为流传的一则故事中,一位在紧迫截止日期下工作的程序员,与自己的AI编程助手经历了一次超现实的互动。在一次常规代码审查中,这款基于针对代码分析微调的大语言模型构建的助手,给出了直白的批评:“这代码是垃圾。”已经压力山大的开发者试查看来源专题页Hacker News 已收录 3910 篇文章

时间归档

May 20262724 篇已发布文章

延伸阅读

AI推理成本悬崖:2026-2027将如何区分赢家与输家AI行业正沉迷于训练成本大战,但一场更隐蔽的危机正在酝酿。推理成本——每次用户查询的价格——将从2026年起成为规模化AI的最大障碍。这不是技术问题,而是决定哪些应用能存活的经济学问题。第一性原理深度学习加速:重写AI性能的规则一股基于第一性原理的加速浪潮正在挑战GPU军备竞赛的范式。通过从零开始剖析张量布局、内存局部性和内核调度,工程师们在现有硬件上实现了数量级的性能提升。AINews深入探究这一方法论如何重塑大语言模型推理、视频生成和智能体系统。本地LLM速度计算器揭示:显存带宽才是GPU真正的瓶颈一款全新开源的速度计算器,能精准预测消费级GPU上本地大语言模型的推理速度。基于真实基准测试,它揭示出显存带宽而非算力才是主要瓶颈,挑战了“显存越大越好”的传统观念,正在重塑边缘AI的硬件选型逻辑。零预算AI训练:小团队如何绕过科技巨头的付费墙,掌握大模型当主流AI平台纷纷筑起付费墙,一支由开源模型、本地硬件和社区资源武装起来的小团队,正在掀起一场自训练的变革。本文深度拆解零预算AI学习的策略、工具及其深远影响。

常见问题

这次模型发布“Single GPU Runs Trillion-Parameter AI Model: The Memory Revolution Begins”的核心内容是什么?

In a landmark demonstration that redefines the hardware requirements for large language model inference, a hobbyist successfully loaded and ran a trillion-parameter open-source mod…

从“How to run trillion parameter model on single GPU”看,这个模型发布为什么重要?

The experiment's architecture is elegantly simple: a single GPU (e.g., an NVIDIA RTX 4090 with 24GB VRAM) is paired with a server motherboard supporting 768GB of Intel Optane Persistent Memory (DCPMM) in App Direct mode.…

围绕“Intel Optane memory for AI inference setup”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。