马克的魔法乘法:一场瞄准AI计算核心的算法革命

Hacker News April 2026
来源:Hacker News归档:April 2026
一种被非正式称为'马克的魔法乘法'的全新计算范式正在浮现,有望成为AI效率领域的颠覆性力量。该方法旨在从根本上重构Transformer模型核心的稠密矩阵乘法运算,承诺带来训练和推理速度的数量级提升,同时大幅降低前沿AI开发的资源门槛。

对更大AI模型的狂热追求正遭遇收益递减的壁垒,每一次微小的能力提升都需要指数级增长的计算资源和资本投入。作为回应,一场静默而深刻的变革正在发生:人们开始寻求能够在每单位FLOP中榨取更多智能的算法突破。这场运动的前沿,是一个内部被称为'马克的魔法乘法'的概念。这不仅仅是另一个优化库或稀疏化技巧;它代表着对神经网络,尤其是Transformer中的注意力机制,如何执行其核心算术运算的一次根本性重审。其前提挑战了主导AI软硬件协同设计多年的现状——不再仅仅专注于设计日益专用的芯片来加速现有低效算法,MMM旨在从第一性原理出发,重新发明算法本身。这一转变将计算效率的负担从硬件转移到了算法创新上。如果成功,它可能打破当前AI扩展的线性成本曲线,使资源有限的研究机构和公司也能参与前沿模型的开发,从而可能引发AI民主化的新浪潮。其影响将波及整个技术栈,从芯片架构和编译器设计,到模型框架和最终应用。

技术深度解析

'马克的魔法乘法'的核心,被假设为一系列针对稠密矩阵乘法分解的算法。标准的矩阵乘法表示为 C = A × B,其中A、B、C均为矩阵,由于其朴素形式具有立方级时间复杂度(对于方阵为O(n³)),计算强度很高。在Transformer中,这主要体现在两个主要瓶颈上:具有O(n²d)复杂度(序列长度*n*,头维度*d*)的注意力分数计算(QKᵀ),以及庞大的前馈网络层。

MMM方法可能探索了几条相互交叉的路径:
1. 结构化矩阵分解: 将FFN层中的权重矩阵(W)或查询/键/值投影矩阵表示为结构化矩阵(例如,Toeplitz矩阵、循环矩阵、低位移秩矩阵)的乘积,或Kronecker积的和。这些结构化矩阵可以利用快速傅里叶变换或其他快速变换,以近线性时间与向量相乘。
2. 近似核方法: 用数学上等价但计算成本更低的公式替换精确的点积注意力(exp(QKᵀ/√d))。这借鉴了线性注意力、随机特征映射以及Performer模型的FAVOR+机制等研究,但旨在实现无损或近乎无损的变换。其'魔法'在于找到一种分解方法,不仅具有渐近高效性,而且能在现代硬件上实现普遍且确切的加速。
3. 算法-架构协同设计: 该方法可能需要改变模型架构,以充分利用新的计算原语。例如,如果MMM在特定形状或具有特定数值属性的矩阵上效果最佳,那么标准的Transformer模块可能会围绕这一约束进行重新设计,从而催生出全新的'MMM原生'架构。

一个相关的开源先例是Meta的xFormers代码库。虽然xFormers本身并非MMM,但它是一个优化Transformer构建块的集合,包括了像FlashAttention这样的高效注意力机制。MMM将在更底层运作,有可能改进xFormers这类库所依赖的核心计算内核。另一个关键代码库是OpenAI的Triton,这是一种用于编写高效GPU内核的语言和编译器。如果MMM得以实现,很可能会以一系列新颖的Triton内核的形式落地。

来自部分模型组件原型实现的早期非公开基准测试数据,显示了其巨大的潜力。下表根据算法复杂度声明的分析,推断了理论性能增益。

| 计算阶段 | 标准矩阵乘法复杂度(理论) | MMM目标复杂度 | 潜在加速比(理论) |
|---|---|---|---|
| 注意力计算(QKᵀ) | O(n²d) | O(n d log n) | 对于长序列(n > 8k)可达10-100倍 |
| 前馈网络层(稠密) | O(n d²) | O(n d log d) | 对于大隐藏维度(d > 10k)可达5-50倍 |
| 反向传播梯度计算 | ~2倍前向传播成本 | 目标为~1.2倍前向传播成本 | 训练步骤时间减少约40% |

数据要点: 理论上的加速在那些正触及当前极限的场景中最为显著:极长的上下文窗口和极宽的模型。这直接瞄准了下一代前沿模型的关键成本驱动因素。

关键参与者与案例分析

围绕MMM的发展并非中心化,而是学术界、资金雄厚的初创公司以及大型科技公司研发部门之间的趋同性努力。昵称中的'马克'据信指的是前OpenAI Codex和DALL-E团队负责人、现隐秘AI研究实验室创始人Mark Chen。Chen在交付基础性AI产品方面的履历,以及他近期对'推理效率'的关注,使他成为与这项根本性追求相关的可信人物。

主要现有参与者:
* Google DeepMind: 凭借在算法创新(如AlphaGo、AlphaFold)方面的深厚专长以及对基于Transformer的模型(Gemini)的巨大投入,DeepMind几乎肯定在探索这一领域。他们在JAX和XLA编译器优化方面的研究,为试验新的线性代数原语提供了绝佳的基础。
* OpenAI: 该组织对能力的不懈追求,加上训练GPT-4及其后继者的极端计算成本,构成了寻找此类突破的强大动力。OpenAI对其从模型设计到基础设施的全栈控制,允许新的计算原语进行深度的垂直整合。
* NVIDIA: 尽管表面上看似有动力销售更多GPU,但NVIDIA在黄仁勋领导下的长期战略是成为AI平台。像MMM这样使AI更易获取的突破,将极大地扩展总可寻址市场。NVIDIA Research可以开发并开源此类技术,以推动其硬件上的软件锁定,即使这会提高绝对效率。

初创公司与研究实验室:
除了Mark Chen的实验室,几家专注于AI基础设施的初创公司,如致力于高效推理的ModularSambaNova,以及研究高效训练方法的MosaicML(现属Databricks),都可能在这一领域进行探索。学术界的研究小组,特别是那些专注于高效深度学习、理论计算机科学和数值线性代数的团队,是基础性算法突破的温床。

更多来自 Hacker News

多智能体 AI 系统革命性重塑自动化漏洞发现格局网络安全格局正经历由多智能体大语言模型系统驱动的根本性变革。传统的漏洞扫描严重依赖静态签名和基于规则的引擎,往往产生高误报率,需要大量人工分类并延误修复工作,导致安全团队负担过重且响应滞后。新兴范式引入了协作式 AI 智能体,战略性地在扫描Webflow 祭出“代理优先”架构,无代码 Web 开发迎来范式革命Webflow 正在执行一次基础设施的根本性 pivot,其战略重心已从视觉设计工具转向成为新兴代理经济的首要编排层。这一转型重新定义了网站的本质:从静态的展示层转变为动态的、机器可读的接口,具备自主协商交易的能力。通过直接将语义元数据嵌入后 Web 时代:AI Agent 弃用 HTTPS 转向轻量级协议支撑人工智能的数字基础设施正在经历一场静默却深刻的转型,这场变革虽未大张旗鼓,却影响深远。随着自主 Agent 成为在线信息的主要消费者,专为人类视觉消费设计的现代 Web 遗留架构正日益显得过时,无法适应自动化流程的高吞吐要求。沉重的 J查看来源专题页Hacker News 已收录 4054 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Transformer的朴素本质:AI行业“越大越好”的时代正在终结最新分析揭示,Transformer架构天生具备一种趋向简洁的内在机制——其注意力机制会自然过滤冗余信息,生成稀疏而高密度的表征,无需任何事后压缩。这一发现直接挑战了当前“越大越好”的主流范式,暗示整个行业可能正在严重过度配置计算资源。DeepSeek-V4百万Token上下文:效率革命重塑AI认知边界DeepSeek-V4在百万级Token上下文处理上实现突破,通过优化的注意力机制与内存架构,大幅降低长文本计算成本。这使得整部小说或完整代码库的无缝处理成为可能,解锁实时文档分析与多轮深度对话的新维度。Anthropic的千兆瓦豪赌:谷歌-博通联盟如何重塑AI基础设施格局Anthropic通过与谷歌和博通的深度技术联盟,锁定了数千兆瓦级的AI算力容量,目标于2026-2027年部署。这一基础设施承诺标志着行业的关键转折:计算规模正成为核心竞争壁垒,从根本上改变前沿AI模型的开发与部署方式。纸带Transformer:一台1976年小型机如何揭示AI的计算本质在一场堪称计算考古学的壮举中,研究人员竟用1976年的小型计算机和纸带训练了一个Transformer模型。这绝非怀旧表演,而是一把哲学手术刀,将神经计算的核心从其现代硬件依赖中剥离。它挑战了行业对规模的迷恋,并揭示了通往更高效、更本质AI

常见问题

这次模型发布“Mark's Magical Multiplication: The Algorithmic Revolution Targeting AI's Computational Core”的核心内容是什么?

The relentless pursuit of larger AI models is hitting a wall of diminishing returns, where each incremental gain in capability demands exponentially more computational power and ca…

从“Mark's Magical Multiplication vs FlashAttention speed comparison”看,这个模型发布为什么重要?

At its core, 'Mark's Magical Multiplication' is hypothesized to be a family of algorithms targeting the decomposition of dense matrix multiplications. The standard matmul, expressed as C = A × B where A, B, and C are mat…

围绕“how does matrix multiplication decomposition work in AI transformers”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。