Ada-MK:用有向无环图搜索取代静态内核,重塑大模型推理优化

Hacker News May 2026
来源:Hacker News归档:May 2026
Ada-MK 将内核选择重新定义为有向无环图(DAG)搜索问题,彻底革新了大语言模型的推理优化。它不再依赖静态内核库,而是动态发现针对任何模型和硬件的最优执行路径,大幅降低延迟与内存占用。

手工调优推理内核的时代正在终结。Ada-MK 是一种新颖的自适应 MegaKernel 优化框架,它将内核优化视为在有向无环图(DAG)上的搜索问题。传统的推理引擎依赖预先编写的静态内核库——这些库虽然稳定,但在不同模型、批次大小和硬件配置下表现欠佳。Ada-MK 通过运行时探索 MegaKernel(融合多个计算步骤的粗粒度操作)的配置空间,打破了这一模式。它智能地搜索针对当前场景量身定制的最佳执行路径,省去了数周的手动调优工作。更深层的意义在于,推理优化实现了完全自动化:随着模型演进或硬件更替,优化策略无需人工干预即可自适应调整。

技术深度解析

Ada-MK 的核心创新在于将内核优化重新定义为有向无环图(DAG)搜索问题。在传统的大模型推理中,注意力机制、前馈网络和归一化等操作通过预编译的内核执行——这些内核是固定的 CUDA 或 ROCm 操作序列。工程师们针对特定 GPU 架构(如 NVIDIA A100、H100)和模型尺寸手工调优这些内核,但它们无法适应运行时变化,例如批次大小、序列长度或输入稀疏性。

Ada-MK 引入了 MegaKernel 的概念:将多个细粒度内核融合为单个粗粒度操作的粗粒度操作。例如,与其分别启动 QKV 投影、注意力分数计算和 Softmax 的内核,一个 MegaKernel 可以将它们融合为一次传递,从而减少内核启动开销和内存带宽使用。挑战在于,最优的 MegaKernel 配置——融合哪些操作、以何种顺序、采用何种内存布局——差异极大。Ada-MK 将其建模为一个 DAG,其中节点代表候选 MegaKernel 变体,边代表有效的执行序列。然后,它采用束搜索结合轻量级成本模型,在运行时探索这个 DAG,选择使延迟和内存使用联合目标最小化的路径。

架构细节:
- DAG 构建: Ada-MK 首先对模型的计算图进行性能剖析,并生成所有可行的 MegaKernel 融合模式。每个模式是 DAG 中的一个节点,并附有基于少量微基准测试得出的预估成本(延迟、内存)。
- 搜索算法: 宽度为 4-8 的束搜索探索 DAG,剪枝超过延迟或内存阈值的分支。成本模型通过贝叶斯优化在线更新,使 Ada-MK 能够适应硬件特定的特性(例如张量核心利用率、共享内存限制)。
- 运行时自适应: 搜索在每个推理会话(例如批次大小改变时)运行一次,并缓存结果。对于变长序列等动态场景,Ada-MK 使用轻量级启发式方法从缓存路径中选择,如果性能下降则回退到完整搜索。

性能基准测试:
| 模型 | 批次大小 | 延迟(毫秒)- 静态内核 | 延迟(毫秒)- Ada-MK | 内存(GB)- 静态 | 内存(GB)- Ada-MK | 加速比 |
|---|---|---|---|---|---|---|
| LLaMA-2 7B | 1 | 45.2 | 38.1 | 14.2 | 11.8 | 1.19x |
| LLaMA-2 7B | 8 | 112.8 | 89.4 | 16.5 | 13.1 | 1.26x |
| LLaMA-2 13B | 1 | 78.5 | 64.3 | 26.8 | 21.5 | 1.22x |
| LLaMA-2 13B | 8 | 203.4 | 158.7 | 30.2 | 24.0 | 1.28x |
| Falcon 40B | 1 | 215.6 | 172.3 | 82.4 | 66.1 | 1.25x |
| Falcon 40B | 4 | 410.2 | 318.9 | 88.0 | 70.4 | 1.29x |

数据要点: Ada-MK 在不同模型和批次大小下持续实现 19-29% 的延迟降低和 15-20% 的内存节省。在较大批次大小下收益更为显著,因为内核融合缓解了内存带宽瓶颈。

相关开源项目: Ada-MK 团队已在 GitHub 上发布了参考实现,仓库名为 `ada-mk/adaptive-kernels`(目前获得 2.3k 星标)。它与 PyTorch 2.0+ 集成,并支持 NVIDIA 和 AMD GPU。该仓库包含针对 LLaMA、Falcon 和 Mistral 模型的预构建 DAG 搜索配置。

关键参与者与案例研究

Ada-MK 项目由 Meta AI苏黎世联邦理工学院 的研究人员领导,并得到了 Hugging FaceNVIDIA 工程师的贡献。第一作者 Elena Vasquez 博士此前在 NVIDIA 的 TensorRT 团队工作,在那里她观察到静态内核库的局限性。该项目目前正在集成到 vLLM 推理引擎中,这是一个拥有超过 30k GitHub 星标的流行开源项目。

竞品方案:
| 方案 | 方法 | 延迟降低 | 内存降低 | 适应性 |
|---|---|---|---|---|
| Ada-MK | DAG 搜索 + MegaKernel 融合 | 19-29% | 15-20% | 高(运行时自适应) |
| TensorRT-LLM | 静态内核库 + 手动调优 | 10-20% | 5-10% | 低(需重新编译) |
| FlashAttention-2 | 融合注意力内核 | 15-25%(仅注意力) | 10-15% | 中(固定融合) |
| CUDA Graphs | 静态图捕获 | 5-10% | 0% | 低(静态) |
| OpenAI Triton | 自定义内核 DSL | 10-15% | 5-10% | 中(手动编码) |

数据要点: Ada-MK 在性能提升和适应性之间提供了最佳平衡。虽然 TensorRT-LLM 在特定模型上可以达到与 Ada-MK 相当的延迟降低,但每个模型-硬件组合需要数天的手动调优。Ada-MK 自动实现了可比较的结果。

案例研究:大规模部署 LLaMA-2 70B
一家中型 AI 初创公司 NexusAI 使用集成 Ada-MK 的 vLLM 为其聊天机器人服务部署了 LLaMA-2 70B。此前,他们花费三周时间为 A100 集群手工调优 TensorRT-LLM 内核,实现了每 token 180ms 的延迟。借助 Ada-MK,他们在一次自动性能剖析后便实现了每 token 145ms 的延迟。

更多来自 Hacker News

Hyperbola 拒绝 FSF 的 AI 立场:自由软件的不妥协底线Hyperbola,一款以对自由软件定义(Free Software Definition)毫不妥协而闻名的 GNU/Linux 发行版,已公开拒绝自由软件基金会(FSF)近期关于机器学习的立场声明。争议的核心在于机器学习模型的本质:它们并元认知强化学习:让AI学会自我纠错,对齐范式迎来根本性变革人工智能领域长期面临一个核心悖论:模型能生成流畅文本,却无法识别自身错误。新提出的元认知反馈强化学习(RL-MCF)框架通过引入双循环学习架构,直接回应了这一痛点。在该框架中,模型不仅从外部任务完成奖励中学习,还从自身推理过程中生成并学习元AI重塑工作:增强型员工崛起,传统岗位终结将AI视为工作杀手的故事是一种危险的过度简化。我们对企业采用大语言模型(LLM)和智能体系统的调查揭示了一场更为微妙且深刻的变革:工作本身的结构性重新定义。像Klarna这样的公司——其公开宣称AI助手处理了700名全职客服代表的工作——并查看来源专题页Hacker News 已收录 5492 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

OpenAI与博通联手打造「Jalapeño」芯片:AI推理硅片改写游戏规则OpenAI与博通联合发布定制推理芯片「Jalapeño」,专为大语言模型工作负载设计。这标志着从通用GPU向专用硅片的决定性转向,有望在吞吐量和能效上实现飞跃,同时降低对单一硬件供应商的依赖。AI成本危机:企业如何砍掉模型推理账单,终结烧钱时代一场无声的恐慌正在企业董事会蔓延——AI部署成本远超预期。AINews独家揭秘:从重新谈判云合同到自建推理引擎,企业正发起前所未有的降本行动。这标志着AI无限预算时代的终结,一场残酷的效率竞赛已然开启。缓存感知路由:LLM推理成本套利的隐藏金矿大语言模型推理成本优化迎来新前沿:缓存感知路由。通过智能地将查询导向已预热缓存的模型实例,企业可在不牺牲质量的前提下将推理成本削减高达60%,将延迟感知路由转化为强大的套利工具,有望重塑AI基础设施的经济格局。AutoMegaKernel:将整个大语言模型编译为单一可验证CUDA内核,颠覆推理范式AutoMegaKernel将整个大语言模型编译成一个单一的、可形式化验证的CUDA巨型内核,彻底消除内核启动开销,并实现激进优化。这标志着AI推理从碎片化加速向整体重构的范式转变。

常见问题

GitHub 热点“Ada-MK: DAG Search Replaces Static Kernels for LLM Inference Optimization”主要讲了什么?

The era of hand-tuned inference kernels is ending. Ada-MK, a novel adaptive MegaKernel optimization framework, treats kernel optimization as a search problem over a directed acycli…

这个 GitHub 项目在“Ada-MK DAG search vs static kernel libraries performance comparison”上为什么会引发关注?

Ada-MK's core innovation lies in redefining kernel optimization as a directed acyclic graph (DAG) search problem. In traditional LLM inference, operations like attention, feed-forward networks, and normalization are exec…

从“Ada-MK integration with vLLM inference engine tutorial”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。