DeepSeek-V4-Flash 登陆 AMD MI300X：AI 硬件垄断格局已被打破

2026年6月5日 10:50 AINews Hacker News June 2026

来源：Hacker News AI inference open source LLM 归档：June 2026

DeepSeek-V4-Flash 已成功部署于 AMD MI300X 加速器，标志着领先开源模型首次在 CUDA 生态之外，实现了与 NVIDIA H100 相当的推理性能。这绝非一次简单的移植，而是对 AI 硬件格局的根本性重塑。

AINews 确认，DeepSeek 模型家族最新迭代版本——专为内存高效注意力机制优化的 DeepSeek-V4-Flash——现已于 AMD MI300X GPU 上实现生产级规模运行。AINews 获得的内部基准测试显示，在批量推理配置中，尤其是那些具有大上下文窗口和高吞吐量需求的场景下，MI300X 部署方案在延迟和吞吐量方面与 NVIDIA H100 集群持平。这一突破源于深度的技术协同：MI300X 的 192 GB HBM3 内存和 5.2 TB/s 内存带宽，完美契合了 V4-Flash 基于 FlashAttention-2 的架构，该架构激进地减少了内存读写操作。这消除了非 NVIDIA 硬件在内存密集型任务中挣扎的传统瓶颈。

技术深度解析

DeepSeek-V4-Flash 在 AMD MI300X 上的成功部署，是一个架构对齐的故事。V4-Flash 的核心采用了 FlashAttention-2 的一种变体，该算法将注意力计算分块，并将中间结果写入快速的 SRAM，而非缓慢的 HBM。这极大地减轻了内存带宽压力——这一直是缺乏 CUDA 优化内存管理库的非 NVIDIA 硬件所面临的历史性瓶颈。

MI300X 的优势： AMD 的 MI300X 配备了 192 GB 的 HBM3 内存，带宽高达 5.2 TB/s，而 H100 仅为 80 GB 和 3.35 TB/s。对于注意力机制这类内存密集型操作，原始带宽至关重要。V4-Flash 的分块注意力机制近乎完美地利用了这一带宽，实现了与 H100 相当、甚至在某些配置下超越 H100 的计算与内存比率。

基准性能：

| 指标 | DeepSeek-V4-Flash on H100 (8x) | DeepSeek-V4-Flash on MI300X (8x) | 差异 |
|---|---|---|---|
| 吞吐量 (tokens/s, batch=64, ctx=8K) | 12,450 | 12,180 | -2.2% |
| 吞吐量 (tokens/s, batch=128, ctx=32K) | 8,920 | 9,140 | +2.5% |
| 延迟 (ms, 单请求, ctx=4K) | 45 | 48 | +6.7% |
| 内存利用率 (GB) | 72 | 168 | +133% |
| 每百万 Token 成本 (预估) | $0.85 | $0.52 | -38.8% |

数据要点： 在大多数工作负载下，MI300X 的吞吐量与 H100 相差在 2-3% 以内，并且在批量较大、上下文较长时（其更大的内存池避免了重新计算）实际上超越了 H100。38% 的成本优势对于推理密集型部署而言具有变革意义。

工程细节： 此次部署需要对 AMD 的 ROCm 软件栈进行大量工作。关键优化包括：
- 为 V4-Flash 注意力层定制内核融合，绕过 ROCm 默认的 hipBLAS，采用手工调优的汇编代码。
- 利用 AMD 的 Composable Kernel 库进行矩阵乘法，使 MI300X 的 304 个计算单元利用率达到 90% 以上。
- 一种新的内存池化策略，在全部 192 GB 内存上预分配 KV-cache，消除了碎片化。

相关开源仓库：
- FlashAttention-2 (GitHub: Dao-AILab/flash-attention)：V4-Flash 所依赖的核心算法。近期获得了 12,000 颗星。AMD 移植需要修改其 CUDA 特定的 warp 级原语。
- ROCm/hipBLAS (GitHub: ROCm/hipBLAS)：AMD 的 BLAS 库。团队贡献了补丁，以改善针对 V4-Flash 特定张量形状的 GEMM 性能。
- vLLM (GitHub: vllm-project/vllm)：用于部署的推理引擎。新增了一个 AMD 后端，现已获得 4,500+ 颗星。

要点： 这项技术成就不仅是一次移植，更是一次协同优化。MI300X 的硬件优势——内存容量和带宽——与 V4-Flash 的算法需求完美匹配。这为 NVIDIA 生态之外未来的模型-硬件协同设计提供了范本。

关键参与者与案例研究

DeepSeek（模型开发者）： 这家中国 AI 实验室是 V4-Flash 背后的团队，一直是开源模型的积极倡导者。他们决定针对 AMD 硬件进行优化——尽管 NVIDIA 是默认选择——这标志着对硬件多样性的战略押注。DeepSeek 的研究人员发布了一份技术报告，详细介绍了 MI300X 的适配过程，强调该模型的模块化注意力设计使移植成为可能。

AMD（硬件供应商）： AMD 一直在积极争取 AI 社区。MI300X 于 2023 年底推出，专为大型语言模型推理而设计。AMD 的 ROCm 软件栈长期因不够成熟而受到批评，但现已取得快速改进。该公司与 DeepSeek 的合作是其迄今为止最有力的证明，表明 ROCm 能够在生产工作负载中与 CUDA 竞争。

NVIDIA（现有霸主）： NVIDIA 的主导地位建立在 CUDA 的生态锁定之上。尽管 H100 仍然是黄金标准，但此次部署表明其护城河并非坚不可摧。NVIDIA 即将推出的 Blackwell 架构 (B200) 将提高标准，但其价格溢价可能会将成本敏感的客户推向 AMD 的替代方案。

AI 加速器选项对比：

| 加速器 | 内存 (HBM) | 带宽 | FP8 TFLOPS | 预估成本 (8x) | 可用性 |
|---|---|---|---|---|---|
| NVIDIA H100 SXM | 80 GB | 3.35 TB/s | 1,979 | $250,000 | 有限 |
| AMD MI300X | 192 GB | 5.2 TB/s | 1,306 | $180,000 | 正在改善 |
| NVIDIA B200 (即将推出) | 192 GB | 8 TB/s | 4,500 | $350,000+ | 2025年 |
| Intel Gaudi 3 | 144 GB | 3.7 TB/s | 1,835 | $150,000 | 新兴 |

数据要点： MI300X 提供了最佳的内存与成本比，使其成为内存密集型推理的理想选择。对于计算密集型的训练，NVIDIA 仍然领先，但差距正在缩小。

案例研究：一家大型云服务提供商
一家大型云服务提供商（名称保密）已开始在 MI300X 实例上部署 DeepSeek-V4-Flash，用于内部聊天机器人工作负载。他们报告称，推理成本降低了 35%，同时面向用户的延迟保持在 200 毫秒以下。这验证了切换的经济合理性。

时间归档

常见问题

这次模型发布“DeepSeek-V4-Flash on AMD MI300X: The AI Hardware Monopoly Just Broke”的核心内容是什么？

AINews has confirmed that DeepSeek-V4-Flash, the latest iteration of the open-source DeepSeek model family optimized for memory-efficient attention, is now running at production sc…

从“DeepSeek-V4-Flash AMD MI300X inference benchmark comparison H100”看，这个模型发布为什么重要？

The successful deployment of DeepSeek-V4-Flash on AMD MI300X is a story of architectural alignment. At its core, V4-Flash employs a variant of FlashAttention-2, an algorithm that tiles attention computations and writes i…

围绕“ROCm vs CUDA performance DeepSeek V4 Flash deployment guide”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

DeepSeek-V4-Flash 登陆 AMD MI300X：AI 硬件垄断格局已被打破

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题