马克的魔法乘法：一场瞄准AI计算核心的算法革命

2026年4月13日 05:03 AINews Hacker News April 2026

来源：Hacker News 归档：April 2026

一种被非正式称为'马克的魔法乘法'的全新计算范式正在浮现，有望成为AI效率领域的颠覆性力量。该方法旨在从根本上重构Transformer模型核心的稠密矩阵乘法运算，承诺带来训练和推理速度的数量级提升，同时大幅降低前沿AI开发的资源门槛。

对更大AI模型的狂热追求正遭遇收益递减的壁垒，每一次微小的能力提升都需要指数级增长的计算资源和资本投入。作为回应，一场静默而深刻的变革正在发生：人们开始寻求能够在每单位FLOP中榨取更多智能的算法突破。这场运动的前沿，是一个内部被称为'马克的魔法乘法'的概念。这不仅仅是另一个优化库或稀疏化技巧；它代表着对神经网络，尤其是Transformer中的注意力机制，如何执行其核心算术运算的一次根本性重审。其前提挑战了主导AI软硬件协同设计多年的现状——不再仅仅专注于设计日益专用的芯片来加速现有低效算法，MMM旨在从第一性原理出发，重新发明算法本身。这一转变将计算效率的负担从硬件转移到了算法创新上。如果成功，它可能打破当前AI扩展的线性成本曲线，使资源有限的研究机构和公司也能参与前沿模型的开发，从而可能引发AI民主化的新浪潮。其影响将波及整个技术栈，从芯片架构和编译器设计，到模型框架和最终应用。

技术深度解析

'马克的魔法乘法'的核心，被假设为一系列针对稠密矩阵乘法分解的算法。标准的矩阵乘法表示为 C = A × B，其中A、B、C均为矩阵，由于其朴素形式具有立方级时间复杂度（对于方阵为O(n³)），计算强度很高。在Transformer中，这主要体现在两个主要瓶颈上：具有O(n²d)复杂度（序列长度*n*，头维度*d*）的注意力分数计算（QKᵀ），以及庞大的前馈网络层。

MMM方法可能探索了几条相互交叉的路径：
1. 结构化矩阵分解： 将FFN层中的权重矩阵（W）或查询/键/值投影矩阵表示为结构化矩阵（例如，Toeplitz矩阵、循环矩阵、低位移秩矩阵）的乘积，或Kronecker积的和。这些结构化矩阵可以利用快速傅里叶变换或其他快速变换，以近线性时间与向量相乘。
2. 近似核方法： 用数学上等价但计算成本更低的公式替换精确的点积注意力（exp(QKᵀ/√d)）。这借鉴了线性注意力、随机特征映射以及Performer模型的FAVOR+机制等研究，但旨在实现无损或近乎无损的变换。其'魔法'在于找到一种分解方法，不仅具有渐近高效性，而且能在现代硬件上实现普遍且确切的加速。
3. 算法-架构协同设计： 该方法可能需要改变模型架构，以充分利用新的计算原语。例如，如果MMM在特定形状或具有特定数值属性的矩阵上效果最佳，那么标准的Transformer模块可能会围绕这一约束进行重新设计，从而催生出全新的'MMM原生'架构。

一个相关的开源先例是Meta的xFormers代码库。虽然xFormers本身并非MMM，但它是一个优化Transformer构建块的集合，包括了像FlashAttention这样的高效注意力机制。MMM将在更底层运作，有可能改进xFormers这类库所依赖的核心计算内核。另一个关键代码库是OpenAI的Triton，这是一种用于编写高效GPU内核的语言和编译器。如果MMM得以实现，很可能会以一系列新颖的Triton内核的形式落地。

来自部分模型组件原型实现的早期非公开基准测试数据，显示了其巨大的潜力。下表根据算法复杂度声明的分析，推断了理论性能增益。

| 计算阶段 | 标准矩阵乘法复杂度（理论） | MMM目标复杂度 | 潜在加速比（理论） |
|---|---|---|---|
| 注意力计算（QKᵀ） | O(n²d) | O(n d log n) | 对于长序列（n > 8k）可达10-100倍 |
| 前馈网络层（稠密） | O(n d²) | O(n d log d) | 对于大隐藏维度（d > 10k）可达5-50倍 |
| 反向传播梯度计算 | ~2倍前向传播成本 | 目标为~1.2倍前向传播成本 | 训练步骤时间减少约40% |

数据要点： 理论上的加速在那些正触及当前极限的场景中最为显著：极长的上下文窗口和极宽的模型。这直接瞄准了下一代前沿模型的关键成本驱动因素。

关键参与者与案例分析

围绕MMM的发展并非中心化，而是学术界、资金雄厚的初创公司以及大型科技公司研发部门之间的趋同性努力。昵称中的'马克'据信指的是前OpenAI Codex和DALL-E团队负责人、现隐秘AI研究实验室创始人Mark Chen。Chen在交付基础性AI产品方面的履历，以及他近期对'推理效率'的关注，使他成为与这项根本性追求相关的可信人物。

主要现有参与者：
* Google DeepMind： 凭借在算法创新（如AlphaGo、AlphaFold）方面的深厚专长以及对基于Transformer的模型（Gemini）的巨大投入，DeepMind几乎肯定在探索这一领域。他们在JAX和XLA编译器优化方面的研究，为试验新的线性代数原语提供了绝佳的基础。
* OpenAI： 该组织对能力的不懈追求，加上训练GPT-4及其后继者的极端计算成本，构成了寻找此类突破的强大动力。OpenAI对其从模型设计到基础设施的全栈控制，允许新的计算原语进行深度的垂直整合。
* NVIDIA： 尽管表面上看似有动力销售更多GPU，但NVIDIA在黄仁勋领导下的长期战略是成为AI平台。像MMM这样使AI更易获取的突破，将极大地扩展总可寻址市场。NVIDIA Research可以开发并开源此类技术，以推动其硬件上的软件锁定，即使这会提高绝对效率。

初创公司与研究实验室：
除了Mark Chen的实验室，几家专注于AI基础设施的初创公司，如致力于高效推理的Modular和SambaNova，以及研究高效训练方法的MosaicML（现属Databricks），都可能在这一领域进行探索。学术界的研究小组，特别是那些专注于高效深度学习、理论计算机科学和数值线性代数的团队，是基础性算法突破的温床。

时间归档

常见问题

这次模型发布“Mark's Magical Multiplication: The Algorithmic Revolution Targeting AI's Computational Core”的核心内容是什么？

The relentless pursuit of larger AI models is hitting a wall of diminishing returns, where each incremental gain in capability demands exponentially more computational power and ca…

从“Mark's Magical Multiplication vs FlashAttention speed comparison”看，这个模型发布为什么重要？

At its core, 'Mark's Magical Multiplication' is hypothesized to be a family of algorithms targeting the decomposition of dense matrix multiplications. The standard matmul, expressed as C = A × B where A, B, and C are mat…

围绕“how does matrix multiplication decomposition work in AI transformers”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

马克的魔法乘法：一场瞄准AI计算核心的算法革命

技术深度解析

关键参与者与案例分析

更多来自 Hacker News

时间归档

延伸阅读

常见问题