GPU利用率是谎言:100%占用背后,90%算力在空转

Hacker News April 2026
来源:Hacker NewsAI infrastructure归档:April 2026
长期被视为AI基础设施效率金标准的GPU利用率指标,从根本上就是错的。AINews调查发现,当仪表盘显示100%时,GPU可能仅发挥了1%-10%的真实计算能力,导致巨额浪费与预算错配。

AINews的一项深度调查揭示了AI行业衡量GPU利用率时的系统性缺陷。nvidia-smi及主流云监控平台报告的标准指标——即GPU上有任何内核运行的时间百分比——制造了一个危险的幻觉。当仪表盘显示100%利用率时,GPU可能只有一个微小内核在活动,张量核心、内存带宽和流式多处理器几乎处于空闲状态。这并非微小的校准误差,而是一个架构性盲区。对于运行大规模训练或推理的AI团队而言,这种失真直接转化为过度配置的集群、膨胀的云账单和错配的研发预算。开源工具Utilyze提供了一种修正方案:它不再测量内核占用率,而是测量实际计算吞吐量,从而揭示GPU的真实效率。

技术深度解析

核心欺骗在于nvidia-smi如何定义GPU利用率。该指标在NVIDIA管理库(NVML)中技术上称为“GPU利用率”,它测量的是在采样周期内,至少有一个内核在GPU上执行的时间占比。这本质上是一个二进制的占用计数器——而非已完成计算工作量的度量。

考虑一个典型的Transformer推理工作负载。单个注意力内核可能启动并占用GPU 10微秒,但在此期间,只有一部分可用的流式多处理器(SM)处于活动状态。作为矩阵乘法主力的张量核心可能处于空闲状态,因为该内核受内存限制。同时,内存带宽可能仅饱和到其峰值的20%。然而,nvidia-smi报告了100%的利用率,因为内核正在运行。

这好比通过工厂前门是否打开来衡量其利用率,而不是根据实际组装了多少产品。结果是:一个看似完全繁忙的GPU,其实际交付的计算能力可能仅为理论峰值FLOPs的1%-10%。

Utilyze是一款开源工具,可在GitHub上获取(仓库:`utilyze/utilyze`,目前拥有2300+星标),它通过更低层级对GPU进行检测来解决这一问题。它不再轮询内核占用率,而是使用NVIDIA的CUPTI(CUDA性能分析工具接口)来捕获实际的内核执行时长和内存传输量。然后,它计算“计算吞吐率”——在给定时间窗口内,已实现的FLOPs与理论峰值FLOPs之比。这直接衡量了GPU执行了多少有用计算。

| 指标 | 测量内容 | 仪表盘显示100%时的典型值 |
|---|---|---|
| nvidia-smi GPU利用率 | 内核占用时间 | 100% |
| Utilyze计算吞吐率 | 已实现FLOPs / 峰值FLOPs | 1%-10% |
| 内存带宽利用率 | 实际带宽 / 峰值带宽 | 10%-30% |
| SM活跃周期 | 至少有一个线程束活跃的周期 | 30%-60% |

数据要点: 该表揭示了鲜明的脱节。当nvidia-smi报告完美利用率时,实际计算吞吐率和内存带宽使用率却低得惊人。这意味着团队正在为他们并未使用的GPU容量付费,通常超出10倍甚至更多。

Utilyze的方法并非没有代价。CUPTI检测会引入开销——通常对监控的工作负载造成2%-5%的性能损失——并且需要对GPU驱动程序的根级访问权限。这使得它不适用于每一毫秒都至关重要的生产推理服务,但对于容量规划和成本优化审计而言,它极具价值。

关键参与者与案例研究

GPU利用率欺骗多年来一直是AI基础设施的隐性税负,但直到最近才有工具将其曝光。关键参与者分为三类:延续错误指标的现有企业、提供修正方案的初创公司,以及夹在中间的超大规模云服务商。

NVIDIA 是问题的首要来源。nvidia-smi和NVML是GPU监控的事实标准,被所有主要云提供商和监控工具使用。NVIDIA并未优先考虑修复这一指标,很可能是因为虚高的利用率数字使其硬件看起来比实际更高效,从而支撑其高价策略。然而,NVIDIA自身的性能分析工具如Nsight Systems和Nsight Compute能提供准确数据——但它们是为开发者设计的,而非用于实时监控仪表盘。

云服务商(AWS、Google Cloud、Azure)都在其监控控制台中使用源自nvidia-smi的指标。AINews已确认,AWS的CloudWatch GPU指标、GCP的Cloud Monitoring以及Azure的Monitor都报告了同样有缺陷的利用率百分比。这意味着每个依赖这些仪表盘的AI团队都在基于谎言做出资源配置决策。例如,一个在AWS上看到90% GPU利用率的团队可能决定不缩减其集群规模,而实际上他们只使用了9%的计算能力。

Utilyze(由前NVIDIA工程师创立)是最突出的修正工具。该工具已被多家AI实验室采用,包括一家中等规模的生成式AI初创公司。该公司在运行Utilyze审计后,将其GPU集群从200块A100缩减至40块——实现了5倍的成本削减。该公司的CTO告诉AINews:“我们原以为利用率是95%。Utilyze显示只有8%。我们每年在闲置的张量核心上烧掉了200万美元。”

| 工具 | 指标 | 准确性 | 开销 | 最佳使用场景 |
|---|---|---|---|---|
| nvidia-smi | 内核占用率 | 低 | 0% | 快速健康检查 |
| Utilyze | 计算吞吐率 | 高 | 2%-5% | 容量规划、审计 |
| NVIDIA Nsight | 全面性能分析 | 非常高 | 5%-15% | 开发、调试 |
| DCGM(NVIDIA) | 多种GPU指标 | 中等 | 0%-2% | 集群监控 |

数据要点: 该表显示了准确性与开销之间的明确权衡。Utilyze提供了高准确性,但代价是适度的性能开销和访问权限要求。

更多来自 Hacker News

AI破译50万条罗马铭文:一幅重塑古代世界的数字地图几十年来,Epigraphic Database Clauss-Slaby(EDCS)一直是历史学家的宝库——一个收录了来自罗马帝国各地超过50万条拉丁铭文的庞大数据库。然而,其原始格式充斥着缩写、残缺文本和不一致的命名惯例,使得公众甚至许晶圆级芯片挑战英伟达AI霸权:Cerebras单芯片处理器改写游戏规则全球最大处理器制造商Cerebras正对英伟达的AI硬件霸主地位发起实质性挑战。其CS-3系统基于单块晶圆级芯片,在训练吞吐量上可与英伟达H100比肩,同时大幅降低了困扰多GPU集群的通信开销。在推理环节,尤其是视频生成和世界模型等延迟敏感Yann LeCun 宣告大语言模型已死:世界模型才是AI的真正未来在一场引发AI界震动的重磅主题演讲中,Meta副总裁兼首席AI科学家Yann LeCun向当前主导AI范式发出了近乎宣战的声明。他的核心论点直截了当:自回归大语言模型——从ChatGPT到Claude等一切AI产品的基础——已经触及根本性的查看来源专题页Hacker News 已收录 4617 篇文章

相关专题

AI infrastructure294 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AI的隐性危机:50%的GPU利用率暴露了巨大的浪费阿里云PAI平台创下计算利用率历史新高——但数字仅为50%。这一里程碑揭示了AI行业GPU算力循环的系统性危机:超过一半的昂贵算力处于闲置、等待或调度不当的状态。这不是一个孤立的工程故障,而是一个行业优先采购硬件、忽视软件优化的普遍症状。Fable销毁80%供应量,Codex悄然构建:AI治理新范式浮出水面Fable将其代币供应量削减80%,并推出全新的编排与审计层;与此同时,Codex在幕后加速推进其构建阶段。这一协同行动标志着从炒作驱动的代币经济学向持久、可信的AI基础设施的关键转折。百亿悖论:AI巨头每赚1美元,为何倒贴10美元?用户每支付100美元AI服务费,背后的实际成本却超过1000美元。这10倍的亏损比率并非运营失误,而是AI实验室精心策划的未来赌局。但当资本水龙头拧紧时,这场豪赌将如何收场?智能体中间件:重塑AI基础设施的静默革命一场悄然无声的革命正在AI基础设施领域展开。智能体中间件(Agentic Middleware)作为一种全新框架,将AI智能体视为“一等公民”,把传统中间件从被动的数据管道转变为主动、自编排的智能层。这一转变将重新定义企业部署AI工作流的方

常见问题

这篇关于“GPU Utilization Is a Lie: How 100% Usage Hides 90% Wasted Compute”的文章讲了什么?

A deep investigation by AINews has uncovered a systemic flaw in how the AI industry measures GPU utilization. The standard metric reported by nvidia-smi and major cloud monitoring…

从“how to check real GPU utilization”看,这件事为什么值得关注?

The core deception lies in how nvidia-smi defines GPU utilization. The metric, technically called "GPU Utilization" in the NVIDIA Management Library (NVML), measures the fraction of time over a sampling period during whi…

如果想继续追踪“GPU utilization waste cost savings”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。