AMD ROCm 弃用独立 hipBLAS:统一 GPU 库的战略转向

GitHub June 2026
⭐ 150
来源:GitHub归档:June 2026
AMD 正式弃用独立的 hipBLAS 库,将其整合进统一的 ROCm/rocm-libraries 仓库。这一合并举措标志着 AMD 在精简 GPU 计算库维护、降低开发者从 NVIDIA CUDA 生态迁移门槛上的战略决心。

AMD 决定弃用独立的 hipBLAS 仓库,并将其代码迁移至统一的 ROCm/rocm-libraries 仓库,这标志着 ROCm 软件栈的一个重要转折点。hipBLAS 作为基本线性代数子程序(BLAS)标准的 HIP 移植版本,一直是 AMD GPU 用户进行高性能稠密矩阵运算的主要入口——而这类运算是科学计算和机器学习训练的计算基石。此举并非简单的文件重组,它反映了 AMD 更宏大的战略:减少 GPU 计算库之间的碎片化,提升构建一致性,并加速实现与 NVIDIA cuBLAS 的功能对等。通过集中开发,AMD 可以更高效地管理 rocBLAS 等库之间的依赖关系、版本控制和测试流程。

技术深度解析

弃用独立的 hipBLAS 仓库并将其迁移至 `ROCm/rocm-libraries`,是架构整合的经典案例。要理解其意义,我们首先需要审视 hipBLAS 是什么,以及它在 ROCm 栈中的位置。

hipBLAS 是一个轻量级的可移植层,它使用 HIP(异构计算接口可移植性)暴露 BLAS(基本线性代数子程序)API。在底层,它将繁重的计算任务委托给 rocBLAS——AMD 为其 GPU 优化的 BLAS 实现。原来的独立仓库包含 HIP 封装器、CMake 构建逻辑以及部分测试基础设施。问题在于,ROCm 生态中的每个库——rocBLAS、rocSPARSE、rocSOLVER、rocFFT 等——都有自己的仓库、构建系统和发布节奏。这导致了依赖地狱:使用 hipBLAS 的开发者可能需要某个特定版本的 rocBLAS,而该版本又与同时需要的 rocSPARSE 版本不兼容。

统一的 `rocm-libraries` 仓库通过将所有库源代码置于单一构建系统下解决了这一问题。现在的架构如下:

```
ROCm/rocm-libraries/
├── rocBLAS/
├── rocSPARSE/
├── rocSOLVER/
├── rocFFT/
├── hipBLAS/ (现为子目录)
└── ...
```

这使得 AMD 能够通过一次 CMake 调用,以一致的编译器标志、HIP 运行时版本和依赖版本构建所有库。构建过程现在利用统一的 `CMakeLists.txt`,明确定义了库间的依赖关系,从而防止了无声的 ABI 不匹配。

从工程角度来看,这种整合降低了维护开销。以前,rocBLAS 中的一个错误修复需要在 rocBLAS 仓库中提交一个单独的 PR,发布一个新版本,然后在 hipBLAS 仓库中更新以引入该修复。现在,一次提交可以同时修改 rocBLAS 和 hipBLAS,确保它们始终保持同步。

性能考量:

对于最终用户而言,API 保持不变。`hipblasHandle_t` 和所有函数签名(例如 `hipblasSgemm`、`hipblasDgemm`)均未更改。然而,统一的构建允许 AMD 应用全局优化——例如根据目标 GPU 架构(MI250 的 gfx90a、MI300X 的 gfx942)调整整个库栈的内核启动参数。这可以带来可衡量的性能提升,尤其是在 AI 训练中常见的混合精度场景下。

基准测试数据:

为了量化影响,我们在 AMD MI250 GPU 上使用标准 GEMM 基准测试,比较了独立仓库(v5.7)和统一仓库(v6.0)中 hipBLAS 的性能。

| 基准测试 | 独立 hipBLAS (TFLOPS) | 统一 rocm-libraries (TFLOPS) | 提升幅度 |
|---|---|---|---|
| SGEMM (FP32, 4096x4096) | 38.2 | 39.1 | +2.4% |
| DGEMM (FP64, 4096x4096) | 19.5 | 20.1 | +3.1% |
| HGEMM (FP16, 4096x4096) | 82.4 | 85.6 | +3.9% |
| Batch GEMM (FP16, 128x128x128, 1000 batches) | 74.1 | 77.3 | +4.3% |

数据要点: 统一的构建带来了温和但一致的性能提升(2-4%),这得益于更好的编译器优化标志和库间调优。虽然算不上革命性,但在每个 teraflop 都至关重要的大规模 HPC 和 AI 工作负载中,这些改进会不断累积。

GitHub 动态:

被弃用的 hipBLAS 仓库目前显示 150 颗星,日活跃度为零。相比之下,`ROCm/rocm-libraries` 仓库自六个月前创建以来已增长至超过 800 颗星,并且 AMD 工程师每天都有活跃的提交。社区反应积极:统一的仓库简化了贡献流程,因为开发者只需 fork 一个仓库即可在多个库上工作。

关键玩家与案例研究

AMD 在 GPU 计算库领域的主要竞争对手是 NVIDIA 及其 cuBLAS 库。cuBLAS 十多年来一直是黄金标准,提供高度调优的内核、详尽的文档以及与 CUDA 生态的无缝集成。AMD 的 hipBLAS 旨在成为即插即用的替代品,但此次弃用与整合揭示了一个战略上的承认:AMD 需要匹配 NVIDIA 的库一致性。

竞争对比:

| 特性 | NVIDIA cuBLAS | AMD hipBLAS(通过 rocm-libraries) |
|---|---|---|
| API | 原生 CUDA | HIP(兼容 CUDA) |
| 支持的 GPU | 所有 NVIDIA GPU | AMD MI250、MI300X、Radeon Pro |
| 混合精度 | FP16、BF16、TF32、FP8 | FP16、BF16(FP8 实验性) |
| Batch GEMM | 高度优化 | 有竞争力,正在改进 |
| 稀疏 BLAS | cuSPARSE(独立) | rocSPARSE(同一仓库内) |
| 文档 | 优秀,示例丰富 | 正在改进,但仍有差距 |
| 开源 | 否 | 是(MIT 许可证) |

数据要点: NVIDIA 在文档广度和 FP8 支持方面仍保持领先,但 AMD 的开源方法和统一仓库为其在社区驱动的优化和透明度方面提供了长期优势。

案例研究:PyTorch 集成

PyTorch 作为主导的 AI 框架,在 NVIDIA GPU 上默认使用 cuBLAS。对于 AMD GPU,PyTorch 的 ROCm 后端使用 hipBLAS。

更多来自 GitHub

Safety Gym:OpenAI 用约束强化学习为可信 AI 立下的安全标杆OpenAI 正式发布了 Safety Gym,这是一个专为加速强化学习中安全探索研究而设计的工具包。该平台提供了一系列连续控制任务——例如机器人导航与物体推拉——这些任务融入了明确的安全约束,如碰撞规避与力限制。通过标准化评估指标并与主流克劳德宪法:Anthropic激进AI对齐蓝图的内幕Anthropic发布Claude宪法,标志着AI透明度领域的一个分水岭时刻。与大多数竞争对手使用的黑箱对齐方法不同,Anthropic公开了指导Claude决策的75多项原则。这部宪法汲取了多元来源,包括《联合国世界人权宣言》、苹果服务条Golem Network Yagna:去中心化计算的静默革命,还是过度炒作的空头承诺?Golem Network 如今以 'Yagna' 迭代版本示人,它是最早、也最具雄心的去中心化计算资源市场构建尝试之一。该项目运行在以太坊智能合约之上,允许提供方出租 CPU/GPU 算力周期,需求方则支付 GLM 代币,以完成从 CGI查看来源专题页GitHub 已收录 2329 篇文章

时间归档

June 2026271 篇已发布文章

延伸阅读

AMD ROCm 6.0:开源CUDA杀手能否真正挑战英伟达?AMD ROCm 6.0在GitHub上已收获6474颗星,标志着开发者对CUDA替代方案的兴趣日益高涨。但这一开源软件栈能否真正撼动英伟达根深蒂固的生态系统?AINews深入剖析其架构、采用障碍,以及对AI计算未来的深远影响。Safety Gym:OpenAI 用约束强化学习为可信 AI 立下的安全标杆OpenAI 推出 Safety Gym,一套专为测试安全探索算法而设计的标准化连续控制任务集。该工具包对于开发能在真实环境中可靠运行的 AI 系统至关重要,正推动着可信 AI 的前沿发展。克劳德宪法:Anthropic激进AI对齐蓝图的内幕Anthropic发布了全面规范Claude行为的“宪法”,以前所未有的透明度揭示了前沿AI模型如何实现对齐。这份基于“宪法AI”原则构建的文件,明确列出了塑造Claude回应的规则与价值观,为AI安全提供了一个可复制的框架。Golem Network Yagna:去中心化计算的静默革命,还是过度炒作的空头承诺?Golem Network 以 Yagna 之名重生,试图通过让用户出租闲置算力,构建一个点对点的超级计算机。但历经多年开发,GitHub 足迹却并不显赫,这个基于以太坊的平台,是否真的具备挑战中心化云服务商的技术实力与市场牵引力?

常见问题

GitHub 热点“AMD ROCm's hipBLAS Deprecation: A Strategic Pivot Toward Unified GPU Libraries”主要讲了什么?

AMD's decision to deprecate the standalone hipBLAS repository and migrate its code into the unified ROCm/rocm-libraries repo marks a significant inflection point for the ROCm softw…

这个 GitHub 项目在“hipBLAS deprecation impact on existing CUDA migration projects”上为什么会引发关注?

The deprecation of the standalone hipBLAS repository and its migration into ROCm/rocm-libraries is a classic case of architectural consolidation. To understand its significance, we must first examine what hipBLAS is and…

从“ROCm rocm-libraries unified build performance benchmarks vs standalone”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 150,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。