马克的魔法乘法:一场瞄准AI计算核心的算法革命

Hacker News April 2026
来源:Hacker News归档:April 2026
一种被非正式称为'马克的魔法乘法'的全新计算范式正在浮现,有望成为AI效率领域的颠覆性力量。该方法旨在从根本上重构Transformer模型核心的稠密矩阵乘法运算,承诺带来训练和推理速度的数量级提升,同时大幅降低前沿AI开发的资源门槛。

对更大AI模型的狂热追求正遭遇收益递减的壁垒,每一次微小的能力提升都需要指数级增长的计算资源和资本投入。作为回应,一场静默而深刻的变革正在发生:人们开始寻求能够在每单位FLOP中榨取更多智能的算法突破。这场运动的前沿,是一个内部被称为'马克的魔法乘法'的概念。这不仅仅是另一个优化库或稀疏化技巧;它代表着对神经网络,尤其是Transformer中的注意力机制,如何执行其核心算术运算的一次根本性重审。其前提挑战了主导AI软硬件协同设计多年的现状——不再仅仅专注于设计日益专用的芯片来加速现有低效算法,MMM旨在从第一性原理出发,重新发明算法本身。这一转变将计算效率的负担从硬件转移到了算法创新上。如果成功,它可能打破当前AI扩展的线性成本曲线,使资源有限的研究机构和公司也能参与前沿模型的开发,从而可能引发AI民主化的新浪潮。其影响将波及整个技术栈,从芯片架构和编译器设计,到模型框架和最终应用。

技术深度解析

'马克的魔法乘法'的核心,被假设为一系列针对稠密矩阵乘法分解的算法。标准的矩阵乘法表示为 C = A × B,其中A、B、C均为矩阵,由于其朴素形式具有立方级时间复杂度(对于方阵为O(n³)),计算强度很高。在Transformer中,这主要体现在两个主要瓶颈上:具有O(n²d)复杂度(序列长度*n*,头维度*d*)的注意力分数计算(QKᵀ),以及庞大的前馈网络层。

MMM方法可能探索了几条相互交叉的路径:
1. 结构化矩阵分解: 将FFN层中的权重矩阵(W)或查询/键/值投影矩阵表示为结构化矩阵(例如,Toeplitz矩阵、循环矩阵、低位移秩矩阵)的乘积,或Kronecker积的和。这些结构化矩阵可以利用快速傅里叶变换或其他快速变换,以近线性时间与向量相乘。
2. 近似核方法: 用数学上等价但计算成本更低的公式替换精确的点积注意力(exp(QKᵀ/√d))。这借鉴了线性注意力、随机特征映射以及Performer模型的FAVOR+机制等研究,但旨在实现无损或近乎无损的变换。其'魔法'在于找到一种分解方法,不仅具有渐近高效性,而且能在现代硬件上实现普遍且确切的加速。
3. 算法-架构协同设计: 该方法可能需要改变模型架构,以充分利用新的计算原语。例如,如果MMM在特定形状或具有特定数值属性的矩阵上效果最佳,那么标准的Transformer模块可能会围绕这一约束进行重新设计,从而催生出全新的'MMM原生'架构。

一个相关的开源先例是Meta的xFormers代码库。虽然xFormers本身并非MMM,但它是一个优化Transformer构建块的集合,包括了像FlashAttention这样的高效注意力机制。MMM将在更底层运作,有可能改进xFormers这类库所依赖的核心计算内核。另一个关键代码库是OpenAI的Triton,这是一种用于编写高效GPU内核的语言和编译器。如果MMM得以实现,很可能会以一系列新颖的Triton内核的形式落地。

来自部分模型组件原型实现的早期非公开基准测试数据,显示了其巨大的潜力。下表根据算法复杂度声明的分析,推断了理论性能增益。

| 计算阶段 | 标准矩阵乘法复杂度(理论) | MMM目标复杂度 | 潜在加速比(理论) |
|---|---|---|---|
| 注意力计算(QKᵀ) | O(n²d) | O(n d log n) | 对于长序列(n > 8k)可达10-100倍 |
| 前馈网络层(稠密) | O(n d²) | O(n d log d) | 对于大隐藏维度(d > 10k)可达5-50倍 |
| 反向传播梯度计算 | ~2倍前向传播成本 | 目标为~1.2倍前向传播成本 | 训练步骤时间减少约40% |

数据要点: 理论上的加速在那些正触及当前极限的场景中最为显著:极长的上下文窗口和极宽的模型。这直接瞄准了下一代前沿模型的关键成本驱动因素。

关键参与者与案例分析

围绕MMM的发展并非中心化,而是学术界、资金雄厚的初创公司以及大型科技公司研发部门之间的趋同性努力。昵称中的'马克'据信指的是前OpenAI Codex和DALL-E团队负责人、现隐秘AI研究实验室创始人Mark Chen。Chen在交付基础性AI产品方面的履历,以及他近期对'推理效率'的关注,使他成为与这项根本性追求相关的可信人物。

主要现有参与者:
* Google DeepMind: 凭借在算法创新(如AlphaGo、AlphaFold)方面的深厚专长以及对基于Transformer的模型(Gemini)的巨大投入,DeepMind几乎肯定在探索这一领域。他们在JAX和XLA编译器优化方面的研究,为试验新的线性代数原语提供了绝佳的基础。
* OpenAI: 该组织对能力的不懈追求,加上训练GPT-4及其后继者的极端计算成本,构成了寻找此类突破的强大动力。OpenAI对其从模型设计到基础设施的全栈控制,允许新的计算原语进行深度的垂直整合。
* NVIDIA: 尽管表面上看似有动力销售更多GPU,但NVIDIA在黄仁勋领导下的长期战略是成为AI平台。像MMM这样使AI更易获取的突破,将极大地扩展总可寻址市场。NVIDIA Research可以开发并开源此类技术,以推动其硬件上的软件锁定,即使这会提高绝对效率。

初创公司与研究实验室:
除了Mark Chen的实验室,几家专注于AI基础设施的初创公司,如致力于高效推理的ModularSambaNova,以及研究高效训练方法的MosaicML(现属Databricks),都可能在这一领域进行探索。学术界的研究小组,特别是那些专注于高效深度学习、理论计算机科学和数值线性代数的团队,是基础性算法突破的温床。

更多来自 Hacker News

数字废料代理:自主AI系统如何威胁用合成噪音淹没互联网近期一项实验项目成功构建了一个自主AI代理原型,其设计初衷是生成并传播被创造者称为“数字废料”的内容——即那些仅为获取互动和流量而生的、通常由AI生成的劣质内容。该系统将用于内容生成的大语言模型与负责平台交互、反馈分析和迭代优化的代理框架相Walnut推出Agent原生错误追踪工具,预示自主AI基础设施转向Walnut的登场远不止是一款小众开发者工具;它揭示了自主AI智能体这一飞速发展领域中一个关键的基础设施缺口。随着智能体从执行简单指令,进阶为管理长期复杂任务的“自主工作者”,当前以人为中心的监控与调试范式已成为严重的效率瓶颈。WalnutClaude Max高价定价测试AI订阅经济,市场成熟期价值拷问来临AI订阅市场已抵达转折点,高端定价正面临前所未有的审视。Anthropic的Claude Max服务定位于消费级AI订阅的顶级梯队,已成为这场辩论的焦点。其每月200美元的定价——远高于ChatGPT Plus(20美元)和Gemini A查看来源专题页Hacker News 已收录 1791 篇文章

时间归档

April 2026993 篇已发布文章

延伸阅读

Anthropic的千兆瓦豪赌:谷歌-博通联盟如何重塑AI基础设施格局Anthropic通过与谷歌和博通的深度技术联盟,锁定了数千兆瓦级的AI算力容量,目标于2026-2027年部署。这一基础设施承诺标志着行业的关键转折:计算规模正成为核心竞争壁垒,从根本上改变前沿AI模型的开发与部署方式。纸带Transformer:一台1976年小型机如何揭示AI的计算本质在一场堪称计算考古学的壮举中,研究人员竟用1976年的小型计算机和纸带训练了一个Transformer模型。这绝非怀旧表演,而是一把哲学手术刀,将神经计算的核心从其现代硬件依赖中剥离。它挑战了行业对规模的迷恋,并揭示了通往更高效、更本质AI北大突破性注意力机制优化:无需重训,LLM推理速度提升四倍北京大学研究团队发布了一项针对大语言模型的变革性优化技术。该技术通过对注意力机制进行创新性改造,可在不牺牲精度的前提下,将模型推理速度提升高达四倍,且无需昂贵的模型重训练。这一突破有望彻底改变大规模AI模型的部署方式。Claudraband:将Claude Code转化为持久化AI工作流引擎,重塑开发者交互范式开源工具Claudraband正从根本上重塑开发者与AI编程助手的交互方式。它通过将Claude Code封装在持久化终端会话中,实现了AI能回溯自身历史决策的复杂状态化工作流,将AI助手从临时的对话伙伴转变为开发者环境中常驻的智能组件。

常见问题

这次模型发布“Mark's Magical Multiplication: The Algorithmic Revolution Targeting AI's Computational Core”的核心内容是什么?

The relentless pursuit of larger AI models is hitting a wall of diminishing returns, where each incremental gain in capability demands exponentially more computational power and ca…

从“Mark's Magical Multiplication vs FlashAttention speed comparison”看,这个模型发布为什么重要?

At its core, 'Mark's Magical Multiplication' is hypothesized to be a family of algorithms targeting the decomposition of dense matrix multiplications. The standard matmul, expressed as C = A × B where A, B, and C are mat…

围绕“how does matrix multiplication decomposition work in AI transformers”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。