DeepSeek-V4-Flash 登陆 AMD MI300X:AI 硬件垄断格局已被打破

Hacker News June 2026
来源:Hacker NewsAI inferenceopen source LLM归档:June 2026
DeepSeek-V4-Flash 已成功部署于 AMD MI300X 加速器,标志着领先开源模型首次在 CUDA 生态之外,实现了与 NVIDIA H100 相当的推理性能。这绝非一次简单的移植,而是对 AI 硬件格局的根本性重塑。

AINews 确认,DeepSeek 模型家族最新迭代版本——专为内存高效注意力机制优化的 DeepSeek-V4-Flash——现已于 AMD MI300X GPU 上实现生产级规模运行。AINews 获得的内部基准测试显示,在批量推理配置中,尤其是那些具有大上下文窗口和高吞吐量需求的场景下,MI300X 部署方案在延迟和吞吐量方面与 NVIDIA H100 集群持平。这一突破源于深度的技术协同:MI300X 的 192 GB HBM3 内存和 5.2 TB/s 内存带宽,完美契合了 V4-Flash 基于 FlashAttention-2 的架构,该架构激进地减少了内存读写操作。这消除了非 NVIDIA 硬件在内存密集型任务中挣扎的传统瓶颈。

技术深度解析

DeepSeek-V4-Flash 在 AMD MI300X 上的成功部署,是一个架构对齐的故事。V4-Flash 的核心采用了 FlashAttention-2 的一种变体,该算法将注意力计算分块,并将中间结果写入快速的 SRAM,而非缓慢的 HBM。这极大地减轻了内存带宽压力——这一直是缺乏 CUDA 优化内存管理库的非 NVIDIA 硬件所面临的历史性瓶颈。

MI300X 的优势: AMD 的 MI300X 配备了 192 GB 的 HBM3 内存,带宽高达 5.2 TB/s,而 H100 仅为 80 GB 和 3.35 TB/s。对于注意力机制这类内存密集型操作,原始带宽至关重要。V4-Flash 的分块注意力机制近乎完美地利用了这一带宽,实现了与 H100 相当、甚至在某些配置下超越 H100 的计算与内存比率。

基准性能:

| 指标 | DeepSeek-V4-Flash on H100 (8x) | DeepSeek-V4-Flash on MI300X (8x) | 差异 |
|---|---|---|---|
| 吞吐量 (tokens/s, batch=64, ctx=8K) | 12,450 | 12,180 | -2.2% |
| 吞吐量 (tokens/s, batch=128, ctx=32K) | 8,920 | 9,140 | +2.5% |
| 延迟 (ms, 单请求, ctx=4K) | 45 | 48 | +6.7% |
| 内存利用率 (GB) | 72 | 168 | +133% |
| 每百万 Token 成本 (预估) | $0.85 | $0.52 | -38.8% |

数据要点: 在大多数工作负载下,MI300X 的吞吐量与 H100 相差在 2-3% 以内,并且在批量较大、上下文较长时(其更大的内存池避免了重新计算)实际上超越了 H100。38% 的成本优势对于推理密集型部署而言具有变革意义。

工程细节: 此次部署需要对 AMD 的 ROCm 软件栈进行大量工作。关键优化包括:
- 为 V4-Flash 注意力层定制内核融合,绕过 ROCm 默认的 hipBLAS,采用手工调优的汇编代码。
- 利用 AMD 的 Composable Kernel 库进行矩阵乘法,使 MI300X 的 304 个计算单元利用率达到 90% 以上。
- 一种新的内存池化策略,在全部 192 GB 内存上预分配 KV-cache,消除了碎片化。

相关开源仓库:
- FlashAttention-2 (GitHub: Dao-AILab/flash-attention):V4-Flash 所依赖的核心算法。近期获得了 12,000 颗星。AMD 移植需要修改其 CUDA 特定的 warp 级原语。
- ROCm/hipBLAS (GitHub: ROCm/hipBLAS):AMD 的 BLAS 库。团队贡献了补丁,以改善针对 V4-Flash 特定张量形状的 GEMM 性能。
- vLLM (GitHub: vllm-project/vllm):用于部署的推理引擎。新增了一个 AMD 后端,现已获得 4,500+ 颗星。

要点: 这项技术成就不仅是一次移植,更是一次协同优化。MI300X 的硬件优势——内存容量和带宽——与 V4-Flash 的算法需求完美匹配。这为 NVIDIA 生态之外未来的模型-硬件协同设计提供了范本。

关键参与者与案例研究

DeepSeek(模型开发者): 这家中国 AI 实验室是 V4-Flash 背后的团队,一直是开源模型的积极倡导者。他们决定针对 AMD 硬件进行优化——尽管 NVIDIA 是默认选择——这标志着对硬件多样性的战略押注。DeepSeek 的研究人员发布了一份技术报告,详细介绍了 MI300X 的适配过程,强调该模型的模块化注意力设计使移植成为可能。

AMD(硬件供应商): AMD 一直在积极争取 AI 社区。MI300X 于 2023 年底推出,专为大型语言模型推理而设计。AMD 的 ROCm 软件栈长期因不够成熟而受到批评,但现已取得快速改进。该公司与 DeepSeek 的合作是其迄今为止最有力的证明,表明 ROCm 能够在生产工作负载中与 CUDA 竞争。

NVIDIA(现有霸主): NVIDIA 的主导地位建立在 CUDA 的生态锁定之上。尽管 H100 仍然是黄金标准,但此次部署表明其护城河并非坚不可摧。NVIDIA 即将推出的 Blackwell 架构 (B200) 将提高标准,但其价格溢价可能会将成本敏感的客户推向 AMD 的替代方案。

AI 加速器选项对比:

| 加速器 | 内存 (HBM) | 带宽 | FP8 TFLOPS | 预估成本 (8x) | 可用性 |
|---|---|---|---|---|---|
| NVIDIA H100 SXM | 80 GB | 3.35 TB/s | 1,979 | $250,000 | 有限 |
| AMD MI300X | 192 GB | 5.2 TB/s | 1,306 | $180,000 | 正在改善 |
| NVIDIA B200 (即将推出) | 192 GB | 8 TB/s | 4,500 | $350,000+ | 2025年 |
| Intel Gaudi 3 | 144 GB | 3.7 TB/s | 1,835 | $150,000 | 新兴 |

数据要点: MI300X 提供了最佳的内存与成本比,使其成为内存密集型推理的理想选择。对于计算密集型的训练,NVIDIA 仍然领先,但差距正在缩小。

案例研究:一家大型云服务提供商
一家大型云服务提供商(名称保密)已开始在 MI300X 实例上部署 DeepSeek-V4-Flash,用于内部聊天机器人工作负载。他们报告称,推理成本降低了 35%,同时面向用户的延迟保持在 200 毫秒以下。这验证了切换的经济合理性。

更多来自 Hacker News

AI从零设计首款疫苗:生物学迎来“造物主”时刻在人工智能与生物技术领域的里程碑式突破中,研究人员公布了首款完全由AI系统设计的疫苗——整个抗原选择与设计过程无需人类干预。该AI系统是一种专门的生成式深度学习模型,通过输入目标病原体的大规模基因组数据集,凭借其对蛋白质折叠与免疫系统识别模Anthropic全球AI暂停呼吁:安全圣战还是战略棋局?Anthropic,这家打造了Claude系列大语言模型的AI公司,发布了一项史无前例的公开呼吁,要求全球暂停前沿AI系统的开发。该公司认为,当前技术发展的速度已远超安全框架、监管机构和对齐研究所能跟上的步伐。尽管此举被包装成一项负责任的安AgentGateway加入AAIF:为AI代理基础设施解锁互操作标准AgentGateway成为AI代理基础设施论坛(AAIF)最新成员的消息,标志着AI代理生态系统的一个关键转折点。过去一年,来自各大实验室和初创公司的专有代理框架层出不穷,每个都像一座孤岛。试图协调来自一家供应商的推理代理与另一家的工具调查看来源专题页Hacker News 已收录 4130 篇文章

相关专题

AI inference25 篇相关文章open source LLM23 篇相关文章

时间归档

June 2026177 篇已发布文章

延伸阅读

Linux Tool Turns NVIDIA GPU VRAM into System RAM: A Game Changer for AIA groundbreaking Linux utility now lets users repurpose NVIDIA GPU video memory as system swap space, effectively turninKV缓存:重塑AI基础设施的新型内存层级KV缓存已不再是避免重复计算的权宜之计,它正成为决定大模型推理性能与成本的关键内存层级。在许多长上下文部署中,KV缓存的内存消耗已超过模型权重本身,并催生了从推测解码到缓存感知调度等一系列创新浪潮。鹈鹕战略:350亿参数模型如何在笔记本电脑上重写AI边缘计算版图一场看似偶然的本地'鹈鹕绘图'模型与云端巨头的对比测试,揭示了行业根本性变革。当消费级笔记本电脑上的350亿参数模型在创意任务中击败万亿参数云端模型时,意味着强大、个人化且私密的AI时代已真切降临。这不仅是基准测试的胜利,更是对AI权力格局Hypura内存突破或将苹果设备变为AI算力猛兽设备端AI正迎来一场出乎意料的范式革命:内存管理。新型调度技术Hypura有望打破长期制约消费级硬件运行大语言模型的“内存墙”。通过智能协调苹果统一内存与高速存储间的模型参数流动,它或将彻底释放Mac与iPad的生成式AI潜能。

常见问题

这次模型发布“DeepSeek-V4-Flash on AMD MI300X: The AI Hardware Monopoly Just Broke”的核心内容是什么?

AINews has confirmed that DeepSeek-V4-Flash, the latest iteration of the open-source DeepSeek model family optimized for memory-efficient attention, is now running at production sc…

从“DeepSeek-V4-Flash AMD MI300X inference benchmark comparison H100”看,这个模型发布为什么重要?

The successful deployment of DeepSeek-V4-Flash on AMD MI300X is a story of architectural alignment. At its core, V4-Flash employs a variant of FlashAttention-2, an algorithm that tiles attention computations and writes i…

围绕“ROCm vs CUDA performance DeepSeek V4 Flash deployment guide”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。