摩尔线程FlashMLA分支:国产GPU能否在注意力优化上追赶英伟达?

GitHub April 2026
⭐ 16
来源:GitHubDeepSeekinference optimization归档:April 2026
摩尔线程(MooreThreads)近日复刻了DeepSeek的FlashMLA库,将其多头潜在注意力(MLA)推理优化引入国产GPU产品线。此举虽填补了中国AI硬件生态的关键空白,但缺乏独立基准测试以及该分支尚处早期阶段,使其在实际性能对标上引发严重质疑。

摩尔线程的MT-FlashMLA直接复刻自DeepSeek的开源库FlashMLA,后者通过大幅降低多头潜在注意力(MLA)——即DeepSeek V2和V3模型的核心注意力机制——的内存带宽与计算开销,实现了显著性能提升。原始FlashMLA在英伟达H100 GPU上利用MLA中键值缓存(KV cache)的低秩结构,最高可节省4倍内存并提升2倍吞吐量。摩尔线程的适配版本则针对其MTT S80和S3000系列GPU,这些GPU采用与英伟达CUDA生态截然不同的指令集架构(ISA)和内存层级。技术挑战极为艰巨:FlashMLA依赖英伟达特有的原语,如CUDA核心、Tensor Core以及Hopper架构的共享内存库。摩尔线程必须克服这些架构差异,才能实现类似效果。

技术深度解析

摩尔线程的MT-FlashMLA继承了DeepSeek原版的核心创新:利用多头潜在注意力(MLA)的数学结构来压缩KV缓存。在标准多头注意力(MHA)中,每个头存储完整的键和值向量,导致内存占用随序列长度和头数线性增长。MLA引入低秩投影:不存储完整的K和V,而是存储维度小得多的潜在向量(通常为原尺寸的1/8到1/4),然后在注意力计算期间即时重建完整的K和V。这使内存带宽从O(n * d * h)降至O(n * r),其中r为潜在维度。

DeepSeek在英伟达硬件上的FlashMLA实现通过三项关键技术达成此效果:
1. 分块KV缓存管理:将KV缓存分割成适合共享内存的块,减少全局内存读取。
2. 融合内核设计:将潜在到完整的投影、注意力分数计算和softmax合并为单个内核,最小化内核启动开销。
3. Tensor Core利用:借助英伟达的Tensor Core进行低秩矩阵乘法,在H100上实现峰值吞吐量。

摩尔线程面临的挑战在于其MTT S80 GPU采用根本不同的架构。S80拥有4096个MUSA核心,组织成128个集群,每个集群仅16 KB共享内存——远小于H100每个SM的228 KB。这意味着分块策略必须彻底重写。此外,摩尔线程缺乏Tensor Core等效单元;其MUSA核心是通用SIMT单元,因此低秩投影必须通过标准矩阵乘法指令实现,这比英伟达的专用硬件慢3-5倍。

基准数据(估计值 vs. 英伟达H100)

| 指标 | DeepSeek FlashMLA (H100) | MT-FlashMLA (MTT S80, 估计值) | 差异 |
|---|---|---|---|
| 峰值内存带宽利用率 | 95% (3.35 TB/s) | ~60% (0.6 TB/s of 1.0 TB/s) | -35% 效率 |
| KV缓存压缩比 | 4倍 (潜在维度512 vs 2048) | 4倍 (相同算法) | 相同 |
| 吞吐量 (tokens/秒, 7B模型) | 12,000 | ~3,500 | -71% |
| 延迟 (首token, 2K上下文) | 45 ms | ~180 ms | -75% |
| 能效 (tokens/瓦特) | 240 | ~70 | -71% |

*数据要点:即使摩尔线程实现完美的算法对等,内存带宽和计算密度上的硬件差距意味着MT-FlashMLA的吞吐量可能比英伟达版本低60-75%。压缩比相同,因为这是MLA的数学属性,不依赖硬件。*

一个关键未解问题是摩尔线程是否实现了融合内核方法。原始FlashMLA GitHub仓库(deepseek-ai/FlashMLA,2.3k星)使用自定义CUDA汇编实现融合内核。截至2026年4月,MT-FlashMLA的代码库显示为纯MUSA C++实现,未进行汇编级调优。这很可能导致更高的内核启动开销和更低的占用率,进一步降低性能。

关键要点:MT-FlashMLA是忠实的算法移植,但摩尔线程GPU的硬件限制——尤其是较小的共享内存、缺乏Tensor Core以及不成熟的编译器栈——使其无法匹配英伟达的性能。真正的考验在于它能否达到H100吞吐量的50%,这对国产硬件而言仍将是重大成就。

关键参与者与案例研究

摩尔线程(北京,中国) 成立于2020年,创始团队来自前英伟达和AMD工程师。其MTT S80 GPU于2022年发布,最初面向游戏和图形处理,但在美国出口管制阻止英伟达A100/H100销往中国后,公司转向AI推理。S80拥有220亿个晶体管、4096个MUSA核心和32 GB GDDR6X内存。然而,其软件栈(MUSA SDK)因文档质量差、算子覆盖有限和驱动bug频发而受到批评。FlashMLA分支是更广泛努力的一部分,旨在将流行AI库(包括PyTorch、TensorFlow和vLLM)移植到MUSA。

DeepSeek(杭州,中国) 是FlashMLA和MLA架构的原始创建者。DeepSeek的V2模型(236B参数,混合专家)首次展示了MLA在大规模下的优势,与同类密集模型相比实现了2倍推理加速。DeepSeek以宽松许可证开源了FlashMLA,该项目已被多个推理框架(包括vLLM和TGI)采用。DeepSeek的动机是生态增长:通过使MLA在英伟达硬件上高效运行,降低他人使用其模型架构的门槛。

面向国产硬件的竞争解决方案

| 解决方案 | 目标硬件 | MLA支持 | 成熟度 | 性能 (vs. H100) |
|---|---|---|---|---|
| MT-FlashMLA | 摩尔线程MTT S80/S3000 | 是 | 早期 (16星) | 未知 (估计25-40%) |
| Hygon DCU FlashAttention | Hygon DCU (AMD MI250衍生版) | 否 (标准注意力) | 中等 | 约30-50% |
| 华为CANN FlashAttention | 华为昇腾910B | 否 (标准注意力) | 成熟 | 约40-60% |
| 壁仞BR100 FlashAttention | 壁仞BR100 | 否 (标准注意力) | 早期 | 约20-35% |

*注:目前,MT-FlashMLA是唯一明确支持MLA的国产硬件解决方案。其他方案仅实现标准FlashAttention,缺乏MLA特有的KV缓存压缩优势。*

行业影响与预测

MT-FlashMLA的发布标志着中国AI硬件生态的关键时刻。一方面,它展示了国产GPU厂商在软件栈成熟度上的快速进步——仅用数月就移植了复杂的CUDA内核。另一方面,它也凸显了硬件层面的根本性差距,这些差距无法仅通过软件优化来弥合。

短期预测(2026-2027)
- MT-FlashMLA将在摩尔线程的S3000系列(预计2026年底发布)上获得最佳性能,该系列可能包含更大的共享内存和改进的矩阵乘法指令。
- 独立基准测试(如MLPerf Inference)将揭示真实性能;摩尔线程可能选择不提交结果,直到性能达到H100的50%以上。
- DeepSeek可能不会正式支持MT-FlashMLA,但社区驱动的优化(如MUSA汇编调优)可能将性能提升至H100水平的35-40%。

长期预测(2028+)
- 如果摩尔线程的下一代架构(代号“Kunlun”)包含专用注意力加速器(类似英伟达的Transformer Engine),MLA性能差距可能缩小至20%以内。
- 中国监管机构可能要求DeepSeek等模型厂商为国产硬件提供官方MLA支持,加速生态成熟。
- 然而,英伟达的软件护城河(CUDA、cuDNN、TensorRT)和硬件领先地位意味着国产GPU在MLA优化上可能长期落后1-2代。

编辑评论

摩尔线程的FlashMLA分支是勇气可嘉的工程壮举,但不应被误读为技术突破。它本质上是对现有英伟达优化代码的翻译,而非创新。真正的突破需要摩尔线程在硬件层面实现MLA的原生支持——例如,在MUSA核心中集成低秩投影指令,或设计专用的KV缓存压缩单元。

此外,摩尔线程的营销叙事存在风险。通过将MT-FlashMLA定位为“国产FlashMLA”,他们可能给用户留下性能对等的印象。实际上,即使是最乐观的估计,MTT S80上的MLA推理速度也比H100慢3-4倍。对于成本敏感型部署,这可能仍然可行(S80的价格约为H100的1/5),但摩尔线程必须透明地沟通性能权衡。

最后,DeepSeek的许可选择值得称赞。通过以宽松许可证发布FlashMLA,他们使国产硬件厂商能够参与竞争,而不必从头开始。这种开源策略可能成为中国AI生态的模板:模型厂商提供算法创新,硬件厂商负责移植和优化。

底线:MT-FlashMLA是国产GPU在AI推理领域迈出的重要一步,但它也提醒我们,硬件差距不仅在于晶体管数量,更在于软件栈的成熟度和专用加速单元。摩尔线程的长期成功将取决于其能否在下一代架构中弥合这些差距,而不仅仅是移植代码。

更多来自 GitHub

acme.sh:零依赖的Shell脚本,默默支撑着半个互联网的SSLacme.sh是一个纯Unix Shell脚本(符合POSIX标准),实现了ACME协议,用于自动化SSL/TLS证书的签发与续期。该项目由Neil Pang于2015年创建,至今已获得超过46,000个GitHub星标,广泛应用于从个人博Sing-box YG Script: The VPS Proxy Toolkit That Changes the GameThe open-source project yonggekkk/sing-box-yg, hosted on GitHub, has rapidly accumulated over 8,400 stars — with a dailyOryx:开源视频栈,让直播与WebRTC走向大众Oryx,也被称为SRS Stack,代表了视频基础设施部署方式的范式转变。由广受欢迎的SRS(Simple Realtime Server)项目团队开发,Oryx集成了高性能流媒体服务器、WebRTC网关、管理仪表盘以及面向云环境或自托管查看来源专题页GitHub 已收录 1597 篇文章

相关专题

DeepSeek29 篇相关文章inference optimization18 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

FlashMLA:DeepSeek内核突破重塑LLM推理经济学DeepSeek开源了FlashMLA——一套针对多头潜在注意力机制的高度优化CUDA内核,相比标准实现,推理延迟降低高达40%,GPU内存占用减少30%。该项目上线首日即获12,586颗GitHub星标,标志着大语言模型迈向实时、高吞吐应MLPerf Training 2.0:重塑AI硬件格局的隐形基准战MLCommons训练参考实现远不止是一个GitHub仓库——它已成为衡量AI训练性能的事实标准。AINews深度解析这些基准测试如何改写硬件竞争规则,并揭示其对整个行业的深远影响。SGLang的RadixAttention技术革新LLM服务,为复杂AI工作负载带来范式转变SGLang框架通过其核心创新RadixAttention,从根本上重构了KV缓存管理机制,为智能体工作流、结构化生成和多轮对话等复杂交互任务带来了数量级的性能提升。这直接解决了现实世界LLM部署中的一大痛点,标志着大语言模型服务方式的一次FastLLM以极简主义挑战AI推理重型框架FastLLM项目正成为AI模型部署领域的一股颠覆性力量,它以极简依赖实现高性能推理,让全精度DeepSeek模型在消费级10GB+ GPU上以惊人速度运行,直接挑战了业界关于高效大语言模型服务必须依赖复杂重型后端的固有认知。

常见问题

GitHub 热点“MooreThreads FlashMLA Fork: Can Chinese GPU Hardware Catch Up on Attention Optimization?”主要讲了什么?

MooreThreads' MT-FlashMLA is a direct fork of DeepSeek's FlashMLA, an open-source library that dramatically reduces memory bandwidth and computation overhead for multi-head latent…

这个 GitHub 项目在“MooreThreads FlashMLA vs DeepSeek FlashMLA performance comparison benchmarks”上为什么会引发关注?

MooreThreads' MT-FlashMLA inherits the core innovation of DeepSeek's original: exploiting the mathematical structure of multi-head latent attention (MLA) to compress the KV cache. In standard multi-head attention (MHA)…

从“How to install MT-FlashMLA on MTT S80 GPU step by step”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 16,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。