技术深度解析
Kog AI 的实时推理栈堪称软硬件协同设计的典范。AMD Instinct GPU(特别是 MI300X 和 MI250)的核心挑战在于其依赖的 ROCm 软件栈,该栈在成熟度和生态系统支持方面历来落后于 CUDA。Kog AI 通过三项关键优化直击痛点:
1. 内存带宽优化: LLM 推理高度受限于内存,主要瓶颈在于模型权重从 HBM(高带宽内存)到计算单元的移动。MI300X 提供 5.2 TB/s 的 HBM3 带宽,而 H100 为 3.35 TB/s。然而,原始带宽若无高效利用则毫无意义。Kog AI 实现了一个自定义内存调度器,根据注意力模式预取权重,将空闲周期减少了 40%。他们还利用 AMD 的 Infinity Fabric 实现了 GPU 间的直接通信,无需主机 CPU 介入,这对大型模型的张量并行至关重要。
2. 内核调度与融合: vLLM 和 TensorRT-LLM 等传统推理框架针对英伟达架构进行了优化。Kog AI 用 HIP(异构计算接口可移植性)——AMD 对 CUDA 的回应——重写了关键的 CUDA 等效内核。他们将注意力和前馈操作融合为单一内核,将启动开销降低了 60%。对于注意力机制,他们实现了一个定制的 FlashAttention 变体,利用 AMD 的 Matrix Cores(类似于英伟达的 Tensor Cores),采用 128x128 的 tile 大小,达到了理论峰值 FLOPS 的 85%。
3. 量化与稀疏性: 为了将更大模型装入内存,Kog AI 集成了 FP8 和 INT4 量化方案。其栈按层动态选择精度,对注意力层使用 FP8,对前馈网络使用 INT4,将内存占用减少 50% 而精度损失不大。他们还利用了 AMD 对结构化稀疏性的支持,在视频生成模型中剪枝了 30% 的权重,同时保持了输出质量。
基准测试性能:
| 模型 | 硬件 | 延迟 (ms) | 吞吐量 (tokens/s) | 内存 (GB) | 每百万 tokens 成本 ($) |
|---|---|---|---|---|---|
| Llama 3 70B | Nvidia H100 | 95 | 1,200 | 140 | 3.50 |
| Llama 3 70B | AMD MI300X (Kog AI) | 88 | 1,350 | 135 | 2.10 |
| Stable Video Diffusion | Nvidia A100 | 420 | 2.4 fps | 80 | 8.00 |
| Stable Video Diffusion | AMD MI250 (Kog AI) | 380 | 2.7 fps | 75 | 4.80 |
数据要点: Kog AI 的栈在 LLM 和视频模型的延迟与吞吐量上不仅与英伟达持平,甚至略有超越,同时将推理成本降低了 40-50%。这直接源于更好的内存利用率和内核融合,而不仅仅是硬件更便宜。
相关开源仓库:
- vLLM (github.com/vllm-project/vllm):一个高吞吐量 LLM 服务引擎。Kog AI 已贡献补丁以支持 AMD,现拥有 28,000+ 星标。
- Hugging Face Text Generation Inference (github.com/huggingface/text-generation-inference):Kog AI 的优化正在被集成到主分支,使 AMD GPU 用户能够通过单条命令部署模型。
关键参与者与案例研究
Kog AI 是一家相对较小的初创公司,由前 AMD 和前 Google 工程师创立,专注于 GPU 编译器优化。其 40 人团队对 ROCm 内部机制有深厚专业知识,此前曾参与 AMD 的 MIOpen 库开发。他们的战略是成为使 AMD GPU 成为 AI 推理一等公民的软件层,类似于 CoreWeave 在云端对英伟达 GPU 所做的工作。
AMD 一直在积极吸引 AI 开发者,其 ROCm 6.0 版本原生支持 PyTorch 2.0 和 TensorFlow。该公司于 2024 年底推出的 Instinct MI300X 拥有 192 GB HBM3 内存(而 H100 为 80 GB),非常适合大型模型。AMD 的开源理念与英伟达的专有 CUDA 形成对比,但缺乏成熟的软件栈一直是其致命弱点。Kog AI 的工作直接填补了这一空白。
竞品方案:
| 方案 | 硬件 | 软件栈 | 关键限制 |
|---|---|---|---|
| TensorRT-LLM | Nvidia H100/B200 | CUDA, TensorRT | 仅限英伟达,成本高昂 |
| vLLM + CUDA | Nvidia A100/H100 | CUDA, PyTorch | 仅限英伟达,内存碎片化 |
| Kog AI Stack | AMD MI300X/MI250 | ROCm, HIP | 开发者社区较小 |
| Groq LPU | 定制 ASIC | Groq API | 模型支持有限,专有 |
数据要点: 虽然英伟达的 TensorRT-LLM 仍是性能的黄金标准,但 Kog AI 的栈在更便宜、更易获取的 AMD 硬件上提供了可比的结果。代价是社区较小且预优化模型较少,但 Kog AI 正在积极移植流行模型。
案例研究:广告实时视频生成
一家中型广告公司 CreativeAI 测试了 Kog AI 的栈,用于按需生成 10 秒产品视频。使用 4 块 AMD MI300X GPU,他们实现了 3 秒的生成时间,