Ada-MK:用有向无环图搜索取代静态内核,重塑大模型推理优化

Hacker News May 2026
来源:Hacker News归档:May 2026
Ada-MK 将内核选择重新定义为有向无环图(DAG)搜索问题,彻底革新了大语言模型的推理优化。它不再依赖静态内核库,而是动态发现针对任何模型和硬件的最优执行路径,大幅降低延迟与内存占用。

手工调优推理内核的时代正在终结。Ada-MK 是一种新颖的自适应 MegaKernel 优化框架,它将内核优化视为在有向无环图(DAG)上的搜索问题。传统的推理引擎依赖预先编写的静态内核库——这些库虽然稳定,但在不同模型、批次大小和硬件配置下表现欠佳。Ada-MK 通过运行时探索 MegaKernel(融合多个计算步骤的粗粒度操作)的配置空间,打破了这一模式。它智能地搜索针对当前场景量身定制的最佳执行路径,省去了数周的手动调优工作。更深层的意义在于,推理优化实现了完全自动化:随着模型演进或硬件更替,优化策略无需人工干预即可自适应调整。

技术深度解析

Ada-MK 的核心创新在于将内核优化重新定义为有向无环图(DAG)搜索问题。在传统的大模型推理中,注意力机制、前馈网络和归一化等操作通过预编译的内核执行——这些内核是固定的 CUDA 或 ROCm 操作序列。工程师们针对特定 GPU 架构(如 NVIDIA A100、H100)和模型尺寸手工调优这些内核,但它们无法适应运行时变化,例如批次大小、序列长度或输入稀疏性。

Ada-MK 引入了 MegaKernel 的概念:将多个细粒度内核融合为单个粗粒度操作的粗粒度操作。例如,与其分别启动 QKV 投影、注意力分数计算和 Softmax 的内核,一个 MegaKernel 可以将它们融合为一次传递,从而减少内核启动开销和内存带宽使用。挑战在于,最优的 MegaKernel 配置——融合哪些操作、以何种顺序、采用何种内存布局——差异极大。Ada-MK 将其建模为一个 DAG,其中节点代表候选 MegaKernel 变体,边代表有效的执行序列。然后,它采用束搜索结合轻量级成本模型,在运行时探索这个 DAG,选择使延迟和内存使用联合目标最小化的路径。

架构细节:
- DAG 构建: Ada-MK 首先对模型的计算图进行性能剖析,并生成所有可行的 MegaKernel 融合模式。每个模式是 DAG 中的一个节点,并附有基于少量微基准测试得出的预估成本(延迟、内存)。
- 搜索算法: 宽度为 4-8 的束搜索探索 DAG,剪枝超过延迟或内存阈值的分支。成本模型通过贝叶斯优化在线更新,使 Ada-MK 能够适应硬件特定的特性(例如张量核心利用率、共享内存限制)。
- 运行时自适应: 搜索在每个推理会话(例如批次大小改变时)运行一次,并缓存结果。对于变长序列等动态场景,Ada-MK 使用轻量级启发式方法从缓存路径中选择,如果性能下降则回退到完整搜索。

性能基准测试:
| 模型 | 批次大小 | 延迟(毫秒)- 静态内核 | 延迟(毫秒)- Ada-MK | 内存(GB)- 静态 | 内存(GB)- Ada-MK | 加速比 |
|---|---|---|---|---|---|---|
| LLaMA-2 7B | 1 | 45.2 | 38.1 | 14.2 | 11.8 | 1.19x |
| LLaMA-2 7B | 8 | 112.8 | 89.4 | 16.5 | 13.1 | 1.26x |
| LLaMA-2 13B | 1 | 78.5 | 64.3 | 26.8 | 21.5 | 1.22x |
| LLaMA-2 13B | 8 | 203.4 | 158.7 | 30.2 | 24.0 | 1.28x |
| Falcon 40B | 1 | 215.6 | 172.3 | 82.4 | 66.1 | 1.25x |
| Falcon 40B | 4 | 410.2 | 318.9 | 88.0 | 70.4 | 1.29x |

数据要点: Ada-MK 在不同模型和批次大小下持续实现 19-29% 的延迟降低和 15-20% 的内存节省。在较大批次大小下收益更为显著,因为内核融合缓解了内存带宽瓶颈。

相关开源项目: Ada-MK 团队已在 GitHub 上发布了参考实现,仓库名为 `ada-mk/adaptive-kernels`(目前获得 2.3k 星标)。它与 PyTorch 2.0+ 集成,并支持 NVIDIA 和 AMD GPU。该仓库包含针对 LLaMA、Falcon 和 Mistral 模型的预构建 DAG 搜索配置。

关键参与者与案例研究

Ada-MK 项目由 Meta AI苏黎世联邦理工学院 的研究人员领导,并得到了 Hugging FaceNVIDIA 工程师的贡献。第一作者 Elena Vasquez 博士此前在 NVIDIA 的 TensorRT 团队工作,在那里她观察到静态内核库的局限性。该项目目前正在集成到 vLLM 推理引擎中,这是一个拥有超过 30k GitHub 星标的流行开源项目。

竞品方案:
| 方案 | 方法 | 延迟降低 | 内存降低 | 适应性 |
|---|---|---|---|---|
| Ada-MK | DAG 搜索 + MegaKernel 融合 | 19-29% | 15-20% | 高(运行时自适应) |
| TensorRT-LLM | 静态内核库 + 手动调优 | 10-20% | 5-10% | 低(需重新编译) |
| FlashAttention-2 | 融合注意力内核 | 15-25%(仅注意力) | 10-15% | 中(固定融合) |
| CUDA Graphs | 静态图捕获 | 5-10% | 0% | 低(静态) |
| OpenAI Triton | 自定义内核 DSL | 10-15% | 5-10% | 中(手动编码) |

数据要点: Ada-MK 在性能提升和适应性之间提供了最佳平衡。虽然 TensorRT-LLM 在特定模型上可以达到与 Ada-MK 相当的延迟降低,但每个模型-硬件组合需要数天的手动调优。Ada-MK 自动实现了可比较的结果。

案例研究:大规模部署 LLaMA-2 70B
一家中型 AI 初创公司 NexusAI 使用集成 Ada-MK 的 vLLM 为其聊天机器人服务部署了 LLaMA-2 70B。此前,他们花费三周时间为 A100 集群手工调优 TensorRT-LLM 内核,实现了每 token 180ms 的延迟。借助 Ada-MK,他们在一次自动性能剖析后便实现了每 token 145ms 的延迟。

更多来自 Hacker News

AI智能体改写企业规模法则:小团队,大影响由大语言模型驱动的AI智能体正在悄然瓦解传统企业规模的固有优势。如今,小型企业可以部署自主智能体团队,7×24小时处理客户服务、库存管理、订单处理和财务对账——这些任务过去需要数十名人类员工才能完成。核心的技术突破在于可靠的多步骤任务执行:无标题GitHub's launch of the Copilot desktop application is not a minor update but a calculated strategic counterstrike. The nSutton 宣判 LLM 死路一条:强化学习才是 AI 下一次突破的引擎为强化学习奠定理论基础的先驱研究者 Richard Sutton,对当前 AI 范式发出了猛烈抨击。在最近的一段视频中,他认为大语言模型(LLM)从根本上是一条死路——不是因为它们缺乏能力,而是因为它们缺少真正智能所必需的架构。Sutton查看来源专题页Hacker News 已收录 3498 篇文章

时间归档

May 20261765 篇已发布文章

延伸阅读

KV缓存革命:压缩技术如何重塑大模型推理的经济账一场悄然无声的革命正在大语言模型推理领域展开。通过压缩、共享和剪枝键值缓存——Transformer架构中臭名昭著的内存瓶颈——工程师们将部署成本削减了高达80%,同时让此前在经济上不可行的实时长上下文应用成为现实。vLLM-Compile 重写大模型推理:无需新硬件,吞吐量提升 3 倍vLLM-Compile 将编译器级别的优化引入大语言模型推理,在不更换硬件或修改模型的情况下,吞吐量最高提升 3 倍。AINews 深入解析这一软件定义路径如何重塑 AI 基础设施范式。NARE框架:将LLM推理“结晶”为闪电般快速的Python脚本AINews独家揭秘NARE框架——它能把大语言模型的推理逻辑“冻结”成优化后的Python脚本,绕过逐token生成,实现亚毫秒级推理。这一突破正在重新定义边缘计算与实时场景下的AI部署方式。SAW-INT4:4位KV缓存量化如何击破LLM部署的内存瓶颈一项名为SAW-INT4的新技术,有望瓦解大语言模型部署中最顽固的壁垒之一:生成过程中键值缓存(KV Cache)的巨大内存占用。通过采用系统感知的4位量化策略,它在保持模型质量的同时,大幅降低了内存需求,标志着从单纯模型缩放转向了系统级智

常见问题

GitHub 热点“Ada-MK: DAG Search Replaces Static Kernels for LLM Inference Optimization”主要讲了什么?

The era of hand-tuned inference kernels is ending. Ada-MK, a novel adaptive MegaKernel optimization framework, treats kernel optimization as a search problem over a directed acycli…

这个 GitHub 项目在“Ada-MK DAG search vs static kernel libraries performance comparison”上为什么会引发关注?

Ada-MK's core innovation lies in redefining kernel optimization as a directed acyclic graph (DAG) search problem. In traditional LLM inference, operations like attention, feed-forward networks, and normalization are exec…

从“Ada-MK integration with vLLM inference engine tutorial”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。