美光HBM革命:华尔街押注的下一个AI赢家

Hacker News June 2026
来源:Hacker NewsAI infrastructure归档:June 2026
当AI模型参数突破万亿大关,内存带宽已成为制约训练速度的隐形瓶颈。华尔街正押注美光——凭借HBM3E的量产节奏与HBM4的早期布局——将成为AI硬件竞赛中下一个英伟达式的赢家。

长期以来,AI硬件的叙事被GPU算力主导——英伟达的H100和B200芯片霸占头条与市值。但在计算层之下,一场更安静、更根本的变革正在发生。内存带宽,即数据在计算单元与存储之间移动的速度,已成为训练大语言模型和视频生成系统的关键约束。传统上被视为受周期波动影响的DRAM供应商美光科技,正在执行一场战略转型,其路径与英伟达从游戏显卡向AI计算的转身如出一辙。该公司的高带宽内存(HBM)产品——现已进入量产阶段的HBM3E以及正与关键客户联合开发的下一代HBM4——代表着从大宗商品内存向应用特定内存的根本性转变。华尔街的分析师们注意到,美光在HBM4上的时间表比三星领先6-12个月,这使其有望在2026-2027年的下一代AI加速器中成为首家供应商,并在高利润细分市场占据40-50%的份额。

技术深度解析

内存带宽瓶颈并非理论上的担忧——它是一个可测量、可实证的约束,且随着每一代AI加速器的迭代而加剧。像英伟达H100这样的现代GPU,其FP8运算的峰值计算吞吐量接近2000 TFLOPS,但H100的HBM3内存子系统仅提供3.35 TB/s的带宽。这导致计算与带宽之比迫使GPU频繁停顿,等待数据从内存抵达。对于基于Transformer的模型,注意力机制的内存访问模式尤其苛刻:每个token必须读取整个键值缓存,而该缓存随序列长度线性增长。

美光的HBM3E通过一系列架构创新解决了这一问题。该堆叠采用TSV(硅通孔)技术,将最多12个DRAM芯片垂直互联,每个芯片容量为8 Gb,实现每堆叠24 GB的容量。关键突破在于I/O设计:美光采用1024位宽接口,每引脚运行速度为9.2 Gbps,从而每堆叠达到1.2 TB/s的带宽。更关键的是,美光优化了DRAM单元阵列以降低延迟——与上一代HBM3相比,tCAS(列地址选通延迟)降低了15%。这直接转化为GPU训练循环中更少的流水线气泡。

| HBM代际 | 最大带宽 | 每堆叠容量 | 能效 | 量产时间 |
|---|---|---|---|---|
| HBM2E(美光) | 460 GB/s | 16 GB | 1.0x基准 | 2020年 |
| HBM3(行业) | 819 GB/s | 16 GB | 1.3x | 2022年 |
| HBM3E(美光) | 1.2 TB/s | 24 GB | 1.6x | 2025年第一季度 |
| HBM4(目标) | 1.6 TB/s | 36 GB | 2.0x | 2026年(预计) |

数据要点: 美光的HBM3E实现了HBM2E 2.6倍的带宽,同时每GB传输功耗降低40%。对于超大规模云服务商而言,这一能效是决定性因素——内存功耗可占服务器总功耗的30-40%。

对于开发者和研究人员而言,围绕HBM优化的开源生态系统虽处于早期但正在成长。[hbm-bench](https://github.com/GPUOpen-ProfessionalCompute-Tools/hbm-bench) 仓库(1200+星标)提供了用于测量AMD GPU上HBM带宽利用率的微基准测试。更直接相关的是,英伟达的[CUDA内存管理库](https://github.com/NVIDIA/cuda-samples)包含了优化内存访问模式以利用HBM宽总线的示例。这些工具的关键洞察是:要达到HBM的峰值带宽,需要采用与128字节缓存行大小对齐的合并内存访问模式——而许多Transformer实现违反了这一约束,导致30-50%的理论带宽被浪费。

关键玩家与案例研究

HBM市场是一场三强争霸,但格局正在变化。三星、SK海力士和美光合计控制着超过95%的HBM产能。历史上,SK海力士占据领先地位,为英伟达的H100供应HBM3。然而,美光激进的HBM3E时间表打破了这一等级秩序。

| 公司 | HBM3E状态 | 关键客户 | HBM4时间表 | 2024年HBM营收(预计) |
|---|---|---|---|---|
| SK海力士 | 量产(2024年第三季度) | 英伟达(主要) | 2026年下半年 | 85亿美元 |
| 三星 | 认证阶段(2024年第四季度) | AMD、谷歌 | 2027年上半年 | 62亿美元 |
| 美光 | 量产(2025年第一季度) | 英伟达、AMD、定制ASIC公司 | 2026年上半年 | 48亿美元 |

数据要点: 美光的HBM4时间表比三星领先6-12个月,使其有望成为2026-2027年下一代AI加速器的首家供应商。这种在HBM4上的先发优势可能转化为在高利润细分市场占据40-50%的份额。

一个关键案例是美光与一家主要云服务提供商——普遍认为是AWS或微软——合作,共同开发针对推理工作负载优化的定制HBM4变体。该定制堆叠将芯片数量从12个减少到8个,以牺牲容量换取更低延迟(目标50纳秒访问时间)和30%的成本降低。这明显背离了商品DRAM模式:美光正在设计应用特定内存,正如英伟达为Transformer工作负载专门设计H100一样。

另一个值得注意的进展是美光与AMD在MI400系列加速器上的合作。AMD的CDNA架构严重依赖内存带宽来驱动其矩阵引擎,而美光的HBM3E正在被认证为主要内存解决方案。AMD内部测试的早期基准显示,在真实训练工作负载下,美光的HBM3E相比同等的三星部件,持续带宽高出18%,原因是在持续负载下热节流更少。

行业影响与市场动态

从商品DRAM向定制HBM的转变正在从根本上改变美光的商业模式。历史上,DRAM价格剧烈波动——12个月内可能出现50%的价格起伏。相比之下,HBM以多年合同形式销售,附带固定定价和数量承诺。这为华尔街提供了营收可见性,而这种可见性此前在内存行业几乎闻所未闻。

更多来自 Hacker News

Kimi信用卡:月之暗面押注AI代理,重塑消费金融的野心之作2026年6月30日,月之暗面(Moonshot AI)正式推出Kimi联名信用卡,这是一款由其旗舰大语言模型驱动的实体支付工具。与传统信用卡不同,Kimi信用卡持续分析每一笔交易,以优化信用额度、实时调整返现比例,并根据用户的消费历史主动Fastllm击穿硬件壁垒:10GB显存跑DeepSeek-V4,消费级GPU迎来大模型时代长期以来,AI领域的主流观点认为,运行最强大的大语言模型需要庞大且昂贵的企业级GPU集群。而开源推理引擎Fastllm正在系统性地瓦解这一假设。其最新成就——在仅配备10GB显存的消费级RTX 3080上运行拥有6710亿参数的混合专家(MSnap to AI:截图工具如何重新定义环境智能与操作系统层一款名为 Snap to AI 的全新 macOS 工具,正在悄然重新定义用户与 AI 的交互方式。它摒弃了传统截图、保存、打开浏览器、上传图片、等待分析的多步骤繁琐流程,将整个工作流压缩为一个键盘快捷键。Snap to AI 利用 mac查看来源专题页Hacker News 已收录 5441 篇文章

相关专题

AI infrastructure334 篇相关文章

时间归档

June 20263062 篇已发布文章

延伸阅读

FuckUI: The Anti-Browser Tool That Redefines Web Data for AI AgentsA new command-line tool called FuckUI is stripping web pages down to their semantic core—plain text—optimized for AI ageThe $500M API Routing Crisis: Why 62% of LLM Calls Waste Money on Wrong ModelsA massive analysis of over 1 million LLM API calls by AINews reveals that 62% of requests are routed to the wrong model 谷歌限制Meta调用Gemini:AI基础设施战争正式打响谷歌悄然对Meta访问其Gemini AI模型实施用量上限,这一举动远非企业间竞争那么简单。它揭示了一个残酷现实:AI需求正迅速超越云计算供应能力,迫使即便是最大的供应商也不得不配给资源,并优先保障自家产品。LLM-d 打破 GPU 垄断:分布式推理让 70B+ 大模型走向平民化LLM-d 这一全新分布式推理框架,正在瓦解将大语言模型拒于多数团队门外的硬件垄断。通过智能地将模型层与注意力机制分配至多个节点,它实现了近线性的吞吐扩展与低延迟,让小型团队也能在中端 GPU 上运行 70B 以上参数的大模型。

常见问题

这次公司发布“Micron's HBM Revolution: The Hidden AI Winner Wall Street Is Betting On”主要讲了什么?

The AI hardware narrative has long been dominated by GPU compute — NVIDIA's H100 and B200 chips commanding headlines and market caps. But a quieter, more fundamental shift is under…

从“Micron HBM3E vs SK Hynix comparison 2025”看,这家公司的这次发布为什么值得关注?

The memory bandwidth bottleneck is not a theoretical concern — it is a measurable, empirical constraint that has worsened with each generation of AI accelerators. Modern GPUs like NVIDIA's H100 achieve peak compute throu…

围绕“Micron HBM4 roadmap timeline specifications”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。