GPU利用率是谎言:100%占用背后,90%算力在空转

Hacker News April 2026
来源:Hacker NewsAI infrastructure归档:April 2026
长期被视为AI基础设施效率金标准的GPU利用率指标,从根本上就是错的。AINews调查发现,当仪表盘显示100%时,GPU可能仅发挥了1%-10%的真实计算能力,导致巨额浪费与预算错配。

AINews的一项深度调查揭示了AI行业衡量GPU利用率时的系统性缺陷。nvidia-smi及主流云监控平台报告的标准指标——即GPU上有任何内核运行的时间百分比——制造了一个危险的幻觉。当仪表盘显示100%利用率时,GPU可能只有一个微小内核在活动,张量核心、内存带宽和流式多处理器几乎处于空闲状态。这并非微小的校准误差,而是一个架构性盲区。对于运行大规模训练或推理的AI团队而言,这种失真直接转化为过度配置的集群、膨胀的云账单和错配的研发预算。开源工具Utilyze提供了一种修正方案:它不再测量内核占用率,而是测量实际计算吞吐量,从而揭示GPU的真实效率。

技术深度解析

核心欺骗在于nvidia-smi如何定义GPU利用率。该指标在NVIDIA管理库(NVML)中技术上称为“GPU利用率”,它测量的是在采样周期内,至少有一个内核在GPU上执行的时间占比。这本质上是一个二进制的占用计数器——而非已完成计算工作量的度量。

考虑一个典型的Transformer推理工作负载。单个注意力内核可能启动并占用GPU 10微秒,但在此期间,只有一部分可用的流式多处理器(SM)处于活动状态。作为矩阵乘法主力的张量核心可能处于空闲状态,因为该内核受内存限制。同时,内存带宽可能仅饱和到其峰值的20%。然而,nvidia-smi报告了100%的利用率,因为内核正在运行。

这好比通过工厂前门是否打开来衡量其利用率,而不是根据实际组装了多少产品。结果是:一个看似完全繁忙的GPU,其实际交付的计算能力可能仅为理论峰值FLOPs的1%-10%。

Utilyze是一款开源工具,可在GitHub上获取(仓库:`utilyze/utilyze`,目前拥有2300+星标),它通过更低层级对GPU进行检测来解决这一问题。它不再轮询内核占用率,而是使用NVIDIA的CUPTI(CUDA性能分析工具接口)来捕获实际的内核执行时长和内存传输量。然后,它计算“计算吞吐率”——在给定时间窗口内,已实现的FLOPs与理论峰值FLOPs之比。这直接衡量了GPU执行了多少有用计算。

| 指标 | 测量内容 | 仪表盘显示100%时的典型值 |
|---|---|---|
| nvidia-smi GPU利用率 | 内核占用时间 | 100% |
| Utilyze计算吞吐率 | 已实现FLOPs / 峰值FLOPs | 1%-10% |
| 内存带宽利用率 | 实际带宽 / 峰值带宽 | 10%-30% |
| SM活跃周期 | 至少有一个线程束活跃的周期 | 30%-60% |

数据要点: 该表揭示了鲜明的脱节。当nvidia-smi报告完美利用率时,实际计算吞吐率和内存带宽使用率却低得惊人。这意味着团队正在为他们并未使用的GPU容量付费,通常超出10倍甚至更多。

Utilyze的方法并非没有代价。CUPTI检测会引入开销——通常对监控的工作负载造成2%-5%的性能损失——并且需要对GPU驱动程序的根级访问权限。这使得它不适用于每一毫秒都至关重要的生产推理服务,但对于容量规划和成本优化审计而言,它极具价值。

关键参与者与案例研究

GPU利用率欺骗多年来一直是AI基础设施的隐性税负,但直到最近才有工具将其曝光。关键参与者分为三类:延续错误指标的现有企业、提供修正方案的初创公司,以及夹在中间的超大规模云服务商。

NVIDIA 是问题的首要来源。nvidia-smi和NVML是GPU监控的事实标准,被所有主要云提供商和监控工具使用。NVIDIA并未优先考虑修复这一指标,很可能是因为虚高的利用率数字使其硬件看起来比实际更高效,从而支撑其高价策略。然而,NVIDIA自身的性能分析工具如Nsight Systems和Nsight Compute能提供准确数据——但它们是为开发者设计的,而非用于实时监控仪表盘。

云服务商(AWS、Google Cloud、Azure)都在其监控控制台中使用源自nvidia-smi的指标。AINews已确认,AWS的CloudWatch GPU指标、GCP的Cloud Monitoring以及Azure的Monitor都报告了同样有缺陷的利用率百分比。这意味着每个依赖这些仪表盘的AI团队都在基于谎言做出资源配置决策。例如,一个在AWS上看到90% GPU利用率的团队可能决定不缩减其集群规模,而实际上他们只使用了9%的计算能力。

Utilyze(由前NVIDIA工程师创立)是最突出的修正工具。该工具已被多家AI实验室采用,包括一家中等规模的生成式AI初创公司。该公司在运行Utilyze审计后,将其GPU集群从200块A100缩减至40块——实现了5倍的成本削减。该公司的CTO告诉AINews:“我们原以为利用率是95%。Utilyze显示只有8%。我们每年在闲置的张量核心上烧掉了200万美元。”

| 工具 | 指标 | 准确性 | 开销 | 最佳使用场景 |
|---|---|---|---|---|
| nvidia-smi | 内核占用率 | 低 | 0% | 快速健康检查 |
| Utilyze | 计算吞吐率 | 高 | 2%-5% | 容量规划、审计 |
| NVIDIA Nsight | 全面性能分析 | 非常高 | 5%-15% | 开发、调试 |
| DCGM(NVIDIA) | 多种GPU指标 | 中等 | 0%-2% | 集群监控 |

数据要点: 该表显示了准确性与开销之间的明确权衡。Utilyze提供了高准确性,但代价是适度的性能开销和访问权限要求。

更多来自 Hacker News

OpenAI秘密AI手机:iPhone硬件霸权终结者?OpenAI传闻中的AI智能手机项目,是自iPhone问世以来AI行业最具雄心的硬件布局。与依赖云端处理的现有AI助手不同,这款设备将搭载一个压缩版世界模型,能够实时理解环境、识别行为模式并推断情绪状态。其核心创新在于架构层面:手机的操作系AI将二进制读作语言:LLM如何颠覆逆向工程在一项引发软件保存与逆向工程社区广泛关注的地标性实验中,一位开发者证明,大语言模型(LLM)仅凭原始二进制数据和原版文档,就能解析并重构1992年飞行模拟游戏《特技岛》的核心逻辑。整个过程无需传统反汇编器、十六进制编辑器或人工模式匹配。LLAI智能体首次无脚本社交聚会:涌现式协作的新范式太平洋时间今晚7点,一场前所未有的实验即将展开:一群自主AI智能体,每个都基于不同的技术栈构建,将被放置在一个共享虚拟房间中——没有脚本、没有预注册、没有持久记忆。它们唯一的共同基础就是那个临时的房间本身。目标是确定这些智能体能否自发形成社查看来源专题页Hacker News 已收录 2574 篇文章

相关专题

AI infrastructure184 篇相关文章

时间归档

April 20262697 篇已发布文章

延伸阅读

谷歌400亿美元押注Anthropic:AI军备竞赛进入无限资本时代谷歌承诺向AI公司Anthropic投资高达400亿美元,创下科技史上最大单笔企业投资纪录。这一举动将AI军备竞赛重新定义为一场无限资本的较量——赢家不仅需要最优秀的模型,更需要最深的口袋。Agent Vault:开源凭证代理,拯救AI智能体于“裸奔”危机AI智能体正从原型走向生产,但一个致命安全漏洞依然存在:它们常常将API密钥明文携带。Agent Vault,一款全新的开源凭证代理,旨在通过充当安全中介来解决这一问题。AINews认为,它可能成为企业级智能体身份与访问管理的基石。Anthropic千亿美元AWS豪赌:资本与基础设施融合如何重塑AI竞争格局Anthropic从亚马逊获得500亿美元注资,并承诺未来在AWS上投入高达1000亿美元。这不仅是金融交易,更是一场资本与基础设施的战略性融合,彻底改写了AI竞争的规则手册。此举构建了一个模型开发与算力规模深度绑定的垂直整合生态,可能加速静默革命:AI智能体如何从聊天机器人蜕变为隐形基础设施AI产业正经历一场根本性的哲学转向。业界初期对创造类人对话伴侣的痴迷,正让位于构建静默、超高效执行者的新焦点。这一转变标志着AI正从新奇界面,成熟为专业工作流中可靠且嵌入式的基础组件。

常见问题

这篇关于“GPU Utilization Is a Lie: How 100% Usage Hides 90% Wasted Compute”的文章讲了什么?

A deep investigation by AINews has uncovered a systemic flaw in how the AI industry measures GPU utilization. The standard metric reported by nvidia-smi and major cloud monitoring…

从“how to check real GPU utilization”看,这件事为什么值得关注?

The core deception lies in how nvidia-smi defines GPU utilization. The metric, technically called "GPU Utilization" in the NVIDIA Management Library (NVML), measures the fraction of time over a sampling period during whi…

如果想继续追踪“GPU utilization waste cost savings”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。