Kog AI 打破英伟达垄断:在 AMD Instinct GPU 上实现实时推理

Hacker News May 2026
来源:Hacker News归档:May 2026
Kog AI 推出基于 AMD Instinct GPU 的生产级实时推理栈,颠覆了只有英伟达硬件才能处理延迟敏感型 AI 工作负载的固有认知。通过优化内存带宽和内核调度,该栈在大语言模型和视频生成任务上实现了低于 100 毫秒的延迟,直接威胁英伟达在推理市场的统治地位。

Kog AI 在 AMD Instinct GPU 上展示的实时推理栈,标志着 AI 硬件格局的关键转折点。多年来,英伟达的 CUDA 生态系统一直被视为训练和推理的事实标准,形成了抑制竞争、推高成本的垄断局面。Kog AI 的突破性成果利用了 AMD 的 ROCm 开源软件栈和 Infinity Fabric 互连技术,实现了生产级延迟和吞吐量。该栈优化了内存带宽利用率和内核调度,使 Llama 3 等大语言模型和 Stable Video Diffusion 等视频生成模型能够以低于 100 毫秒的响应时间运行。这绝非纸上谈兵:Kog AI 已将该栈与英伟达 H100 和 A100 进行了基准测试,结果显示其性能具有竞争力。

技术深度解析

Kog AI 的实时推理栈堪称软硬件协同设计的典范。AMD Instinct GPU(特别是 MI300X 和 MI250)的核心挑战在于其依赖的 ROCm 软件栈,该栈在成熟度和生态系统支持方面历来落后于 CUDA。Kog AI 通过三项关键优化直击痛点:

1. 内存带宽优化: LLM 推理高度受限于内存,主要瓶颈在于模型权重从 HBM(高带宽内存)到计算单元的移动。MI300X 提供 5.2 TB/s 的 HBM3 带宽,而 H100 为 3.35 TB/s。然而,原始带宽若无高效利用则毫无意义。Kog AI 实现了一个自定义内存调度器,根据注意力模式预取权重,将空闲周期减少了 40%。他们还利用 AMD 的 Infinity Fabric 实现了 GPU 间的直接通信,无需主机 CPU 介入,这对大型模型的张量并行至关重要。

2. 内核调度与融合: vLLM 和 TensorRT-LLM 等传统推理框架针对英伟达架构进行了优化。Kog AI 用 HIP(异构计算接口可移植性)——AMD 对 CUDA 的回应——重写了关键的 CUDA 等效内核。他们将注意力和前馈操作融合为单一内核,将启动开销降低了 60%。对于注意力机制,他们实现了一个定制的 FlashAttention 变体,利用 AMD 的 Matrix Cores(类似于英伟达的 Tensor Cores),采用 128x128 的 tile 大小,达到了理论峰值 FLOPS 的 85%。

3. 量化与稀疏性: 为了将更大模型装入内存,Kog AI 集成了 FP8 和 INT4 量化方案。其栈按层动态选择精度,对注意力层使用 FP8,对前馈网络使用 INT4,将内存占用减少 50% 而精度损失不大。他们还利用了 AMD 对结构化稀疏性的支持,在视频生成模型中剪枝了 30% 的权重,同时保持了输出质量。

基准测试性能:

| 模型 | 硬件 | 延迟 (ms) | 吞吐量 (tokens/s) | 内存 (GB) | 每百万 tokens 成本 ($) |
|---|---|---|---|---|---|
| Llama 3 70B | Nvidia H100 | 95 | 1,200 | 140 | 3.50 |
| Llama 3 70B | AMD MI300X (Kog AI) | 88 | 1,350 | 135 | 2.10 |
| Stable Video Diffusion | Nvidia A100 | 420 | 2.4 fps | 80 | 8.00 |
| Stable Video Diffusion | AMD MI250 (Kog AI) | 380 | 2.7 fps | 75 | 4.80 |

数据要点: Kog AI 的栈在 LLM 和视频模型的延迟与吞吐量上不仅与英伟达持平,甚至略有超越,同时将推理成本降低了 40-50%。这直接源于更好的内存利用率和内核融合,而不仅仅是硬件更便宜。

相关开源仓库:
- vLLM (github.com/vllm-project/vllm):一个高吞吐量 LLM 服务引擎。Kog AI 已贡献补丁以支持 AMD,现拥有 28,000+ 星标。
- Hugging Face Text Generation Inference (github.com/huggingface/text-generation-inference):Kog AI 的优化正在被集成到主分支,使 AMD GPU 用户能够通过单条命令部署模型。

关键参与者与案例研究

Kog AI 是一家相对较小的初创公司,由前 AMD 和前 Google 工程师创立,专注于 GPU 编译器优化。其 40 人团队对 ROCm 内部机制有深厚专业知识,此前曾参与 AMD 的 MIOpen 库开发。他们的战略是成为使 AMD GPU 成为 AI 推理一等公民的软件层,类似于 CoreWeave 在云端对英伟达 GPU 所做的工作。

AMD 一直在积极吸引 AI 开发者,其 ROCm 6.0 版本原生支持 PyTorch 2.0 和 TensorFlow。该公司于 2024 年底推出的 Instinct MI300X 拥有 192 GB HBM3 内存(而 H100 为 80 GB),非常适合大型模型。AMD 的开源理念与英伟达的专有 CUDA 形成对比,但缺乏成熟的软件栈一直是其致命弱点。Kog AI 的工作直接填补了这一空白。

竞品方案:

| 方案 | 硬件 | 软件栈 | 关键限制 |
|---|---|---|---|
| TensorRT-LLM | Nvidia H100/B200 | CUDA, TensorRT | 仅限英伟达,成本高昂 |
| vLLM + CUDA | Nvidia A100/H100 | CUDA, PyTorch | 仅限英伟达,内存碎片化 |
| Kog AI Stack | AMD MI300X/MI250 | ROCm, HIP | 开发者社区较小 |
| Groq LPU | 定制 ASIC | Groq API | 模型支持有限,专有 |

数据要点: 虽然英伟达的 TensorRT-LLM 仍是性能的黄金标准,但 Kog AI 的栈在更便宜、更易获取的 AMD 硬件上提供了可比的结果。代价是社区较小且预优化模型较少,但 Kog AI 正在积极移植流行模型。

案例研究:广告实时视频生成
一家中型广告公司 CreativeAI 测试了 Kog AI 的栈,用于按需生成 10 秒产品视频。使用 4 块 AMD MI300X GPU,他们实现了 3 秒的生成时间,

更多来自 Hacker News

WhichLLM:开源工具精准匹配AI模型与你的硬件配置开源项目WhichLLM应运而生,为日益突出的痛点提供了实用解决方案:如何针对特定硬件配置选择最佳本地大语言模型。随着AI推理从云端向边缘设备迁移——受隐私担忧、延迟要求和不断攀升的API成本驱动——开发者和企业面临从Llama到MistrRelaxAI 将推理成本削减 80%:挑战 OpenAI 与 Claude 的主导地位总部位于英国的 AI 初创公司 RelaxAI 发布了一项主权大语言模型推理服务,声称相比 OpenAI 和 Anthropic 的产品,成本降低 80%。该公司通过先进量化技术、推测性解码和动态批处理的组合实现这一目标,所有计算均在英国数GlycemicGPT:开源AI起义,打破糖尿病护理的僵局当一位患有1型糖尿病的软件工程师无法让他的内分泌科医生审阅数月来的连续血糖监测(CGM)数据时,他没有仅仅提交一份投诉——他亲手构建了一个解决方案。结果就是GlycemicGPT,一个开源的、自托管的AI平台,它将来自Dexcom G7 C查看来源专题页Hacker News 已收录 3435 篇文章

时间归档

May 20261630 篇已发布文章

延伸阅读

4毫秒性别分类器:波兰1MB模型重写边缘AI规则华沙团队推出仅1MB的语音性别分类模型,在边缘设备上实现4毫秒推理,专为欧洲语音优化。该模型以ONNX格式运行,彻底摆脱云端依赖,精准填补了口音特异性语音AI的关键空白,标志着行业正加速转向隐私保护与超高效架构。WhichLLM:开源工具精准匹配AI模型与你的硬件配置WhichLLM是一款开源工具,能根据你的具体硬件配置推荐最佳本地大语言模型。它通过将真实基准测试分数映射到GPU、内存和CPU规格,解决了边缘AI部署中模型选择的关键难题。RelaxAI 将推理成本削减 80%:挑战 OpenAI 与 Claude 的主导地位英国初创公司 RelaxAI 推出主权大语言模型推理服务,声称成本仅为 OpenAI 和 Anthropic Claude 的 20%。通过优化推理架构并利用本地基础设施,该服务以极低价格提供企业级性能,直接挑战美国科技巨头的定价权。AI设计工具终结后端开发者的前端噩梦后端开发者正越来越多地借助AI设计工具,仅凭自然语言描述即可生成用户界面,无需再学习React或Vue。这一由Claude Design和谷歌实验性工具推动的转变,正在重塑团队协作模式,让全栈开发变得前所未有的触手可及。

常见问题

这次公司发布“Kog AI Breaks Nvidia's Grip: Real-Time Inference on AMD Instinct GPUs”主要讲了什么?

Kog AI's demonstration of a real-time inference stack on AMD Instinct GPUs marks a pivotal moment in the AI hardware landscape. For years, Nvidia's CUDA ecosystem has been consider…

从“How does Kog AI's stack compare to TensorRT-LLM for AMD GPUs?”看,这家公司的这次发布为什么值得关注?

Kog AI's real-time inference stack is a masterclass in hardware-software co-design. The core challenge with AMD Instinct GPUs (specifically the MI300X and MI250) has been their reliance on the ROCm software stack, which…

围绕“What are the best AMD GPUs for real-time LLM inference in 2025?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。