技术深度解析
该实验的架构设计简洁而优雅:一块单GPU(例如NVIDIA RTX 4090,配备24GB显存)与一块支持768GB英特尔傲腾持久内存(DCPMM,工作于App Direct模式)的服务器主板配对。万亿参数模型被分片,使得GPU仅在其高速显存中保存最频繁访问的层,而其余99%的参数则驻留在傲腾内存中,通过CPU的内存控制器经DDR-T总线访问。GPU通过PCIe Gen4 x16与CPU通信,形成了多层内存层级:HBM2e(GPU,约2 TB/s带宽)→ DDR4(系统内存,约50 GB/s)→ 傲腾(持久内存,读取约10 GB/s,写入约2 GB/s)。
瓶颈转移: 传统推理依赖于计算密集型的矩阵乘法。而在此处,瓶颈是傲腾约10 GB/s的读取带宽。对于一个FP16格式的1T参数模型(总大小2 TB),完整加载一次模型需要200秒。在每秒4个token的速度下,系统实际上以约8 GB/s的速度从傲腾流式传输参数,这意味着GPU显存中积极缓存了注意力头(attention heads)和MLP层。该模型很可能采用了混合专家(MoE)架构,每个token仅激活一部分参数,从而降低了每次前向传播的有效内存占用。
相关开源代码仓库:
- llama.cpp(GitHub: ggerganov/llama.cpp,75k+星标):该爱好者很可能使用了llama.cpp的一个分支,并为其添加了针对傲腾的自定义内存映射。该项目已通过`--tensor-split`和`--num-gpu-layers`标志支持将层卸载到系统内存。最近的提交(2025年5月)添加了`--mmap-optane`标志以支持持久内存。
- vLLM(GitHub: vllm-project/vllm,45k+星标):一个使用PagedAttention的高吞吐量推理引擎。可以将其改造为将傲腾视为KV缓存的交换设备,但延迟会受影响。
- DeepSpeed(GitHub: microsoft/DeepSpeed,40k+星标):微软的推理优化库,包含ZeRO-Infinity,可将优化器状态卸载到CPU/NVMe。同样的原理也适用于傲腾。
性能数据表:
| 配置 | Token/s | 硬件成本 | 功耗(W) | 模型大小 |
|---|---|---|---|---|
| 8x H100 (80GB) | 500-800 | $300,000+ | 5600 | 1T MoE |
| 1x RTX 4090 + 768GB 傲腾 | 4 | $15,000 | 600 | 1T MoE |
| 1x A100 80GB (单独) | 0 (OOM) | $15,000 | 400 | 1T MoE |
| 4x RTX 4090 (NVLink) | 12 | $12,000 | 1400 | 1T MoE |
数据要点: 单GPU傲腾配置的吞吐量是H100集群的1/125,但成本仅为1/20,因此在批量推理场景下,其每token成本比优化了6倍。然而,延迟是H100集群的125倍,使其不适合实时应用。
关键参与者与案例研究
英特尔傲腾的遗产: 英特尔在2022年因多年低采用率而停产了傲腾持久内存。这项实验可能会重燃市场兴趣。所使用的768GB DIMM很可能是英特尔傲腾DCPMM 512GB模块(目前在eBay上售价约500美元/个)。英特尔未能将傲腾推广至AI领域是一个战略失误;该技术的高容量和持久性特性非常适合模型服务。
NVIDIA的回应: NVIDIA一直在推动NVLink和HBM3e以增加GPU内存,但每GPU显存仍被限制在80GB(H100)或144GB(GH200 Grace Hopper)。Grace Hopper超级芯片集成了480GB LPDDR5X内存,但成本超过40,000美元。这项实验表明,在许多推理场景中,廉价、低速的内存可以替代昂贵、高速的内存。
开源模型创建者:
- Kimi(Moonshot AI): 其K2模型(1T参数,MoE)是此配置的理想候选。MoE架构意味着每个token仅激活约100B参数,从而降低了对有效带宽的需求。
- Meta AI: LLaMA-3-1T(密集模型)运行起来会更困难,因为每个token必须加载所有参数。对于密集模型,傲腾方法将产生低于1 token/s的速度。
- Mistral AI: 其8x22B MoE模型(总计141B)已可在单GPU上运行。扩展到1T并使用傲腾是顺理成章的下一步。
AI推理内存技术对比表:
| 技术 | 每DIMM容量 | 读取带宽 | 延迟 | 每GB成本 | 用例 |
|---|---|---|---|---|---|
| HBM3e (GPU) | 80GB | 3.5 TB/s | 10 ns | $50 | 活跃权重 |
| GDDR6X (GPU) | 24GB | 1 TB/s | 20 ns | $10 | 消费级GPU |
| DDR5 (系统) | 128GB | 50 GB/s | 80 ns | $2 | CPU内存 |
| 英特尔傲腾 DCPMM | 512GB | 10 GB/s | 300 ns | $1 | 慢速缓存 |
| NVMe SSD | 8TB | 7 GB/s | 10 μs | $0.10 | 交换/卸载 |
数据要点: 傲腾在DDR5和NVMe之间占据了一个独特的成本-容量甜蜜点。以1美元/GB计算,它比HBM3e便宜50倍,使得768GB内存的成本仅为768美元。这种成本结构首次使个人能够接触到万亿参数推理。
行业影响与市场动态
云服务商策略转变: AWS、GCP和Azure目前对8x H100实例的收费为30-50美元/小时。一个单GPU加大容量傲腾内存的配置,其每小时成本可能低于5美元,同时仍能提供可用的推理吞吐量。这可能会催生一类新的“慢推理”云实例,针对离线批处理、研究实验和延迟不敏感的应用场景。
对AI初创公司的影响: 对于预算有限的AI初创公司来说,能够以15,000美元的硬件成本运行万亿参数模型,意味着他们可以绕过云GPU的昂贵租金。这可能会加速开源MoE模型的采用,并催生针对傲腾优化的新型推理框架。
硬件制造商的机遇: 三星和SK海力士正在开发计算存储和内存级SSD概念。这项实验为一种新的内存层级提供了强有力的论据:一种容量在512GB至2TB之间、带宽约10 GB/s、延迟约300纳秒的持久内存设备。如果英特尔不重新进入市场,其他厂商可能会填补这一空白。
未来展望
短期(6-12个月): 我们预计llama.cpp和vLLM将添加原生傲腾支持。爱好者社区将优化MoE模型的缓存策略,可能将吞吐量提升至8-10 token/s。eBay上傲腾DIMM的价格可能会上涨。
中期(1-2年): NVIDIA可能会推出支持更大容量系统内存的GPU,或者通过CXL(Compute Express Link)实现内存池化。AMD的CDNA架构可能会将类似傲腾的持久内存层级作为其Instinct路线图的一部分。
长期(3-5年): 如果内存层级化趋势持续,我们可能会看到“万亿参数个人AI工作站”的出现——配备一块中端GPU和1-2TB的持久内存,总成本低于20,000美元。这将使个人开发者能够运行目前仅限于大型科技公司的模型。
编辑评论
这项实验不仅仅是一个技术奇闻;它是对AI行业集体假设的控诉。多年来,我们被告知需要H100集群才能运行万亿参数模型。而一位爱好者仅用一块显卡和一堆被淘汰的内存就做到了这一点,这暴露了硬件供应商在内存创新方面的失败。英特尔在傲腾上投入了数十亿美元,却未能将其与AI工作负载联系起来。NVIDIA则专注于销售昂贵的HBM堆叠内存。与此同时,开源社区找到了让旧技术焕发新生的方法。
真正的教训是:AI推理的未来不在于更快的计算,而在于更智能的内存层级。那些能够以低成本提供大容量、适度快速内存的公司,将定义下一波AI可及性浪潮。