HPE DL394 Gen12 搭载 Nvidia Vera：智能体 AI 呼唤以 CPU 为核心的服务器设计

2026年6月9日 04:35 AINews Hacker News June 2026

来源：Hacker News AI agents 归档：June 2026

慧与科技（HPE）推出 ProLiant Compute DL394 Gen12，这是首款集成 Nvidia Vera CPU 的服务器，专为智能体 AI 工作负载设计。这标志着从 GPU 主导的架构向 CPU 主导的编排模式的根本性转变，以应对实时、多步骤决策的需求。

HPE 发布 DL394 Gen12 标志着对过去两年主导企业 AI 基础设施的 GPU 中心范式的决定性突破。该服务器是首款搭载 Nvidia Vera CPU 的产品，这颗处理器并非为原始矩阵乘法而设计，而是为自主 AI 智能体所需的逻辑编排、任务调度和低延迟分支而构建。其设计理念直截了当：在智能体系统中，瓶颈不再是模型推理速度本身，而是协调多步骤推理、工具调用和错误恢复的开销。DL394 Gen12 通过让 CPU 占据主导地位来解决这一问题，将模型推理和模拟任务委托给多达 16 个 GPU，而 Vera CPU 则负责控制循环。这种模块化、可扩展的方法——延续了 HPE 在 ProLiant 系列中的一贯思路——为实时、上下文感知的 AI 工作负载提供了前所未有的效率。

技术深度解析

HPE DL394 Gen12 是对标准企业服务器蓝图的一次彻底颠覆。其核心是 Nvidia Vera CPU，这颗处理器 Nvidia 已悄然研发多年，但直到现在才揭示其真正用途。Vera 并非重新利用的 GPU 核心；它是一款基于 Nvidia Grace 架构的全功能 CPU，拥有 72 个定制 Arm v9 核心，专注于单线程性能，并配备高达 512 MB 的 L3 缓存。这种设计针对智能体 AI 工作负载所需的指针追踪、条件分支和状态管理进行了优化。

架构概览：
- CPU 主导编排： Vera CPU 运行智能体的控制循环——解析用户意图、将任务分解为子步骤、调用外部 API、管理内存以及处理错误恢复。这是一种本质上顺序执行、对延迟敏感的工作负载，GPU 难以胜任。
- GPU 作为协处理器： 多达 16 个 Nvidia H100 或 B200 GPU 负责模型推理、检索增强生成（RAG）向量搜索和基于模拟的验证等繁重任务。GPU 被视为专用加速器，而非系统的主宰。
- 高带宽互连： DL394 Gen12 采用 Nvidia 的 NVLink-C2C 互连技术，每个 Vera CPU 与其连接的 GPU 之间提供 900 GB/s 的带宽。这至关重要，因为智能体系统的主要瓶颈在于编排器（CPU）与推理引擎（GPU）之间的数据移动。
- 内存层级： 每个 Vera CPU 配备高达 512 GB 的 LPDDR5X 内存，而 GPU 则拥有自己的 HBM3e 内存。该系统支持统一内存架构，CPU 可直接访问 GPU 内存以获取控制信号，从而降低延迟。

为何这对智能体 AI 至关重要：
考虑一个典型的智能体任务：“预订下周二去东京的航班，但前提是天气预报良好，并向我的团队发送日历邀请。”这需要：
1. 解析自然语言意图。
2. 调用天气 API（延迟敏感，CPU 密集型）。
3. 查询航班数据库（I/O 密集型）。
4. 运行语言模型以比较选项（GPU 密集型）。
5. 执行日历 API 调用（CPU 密集型）。
6. 处理潜在错误（例如，无可用航班）并重新规划。

在传统的以 GPU 为中心的服务器中，每个步骤都需要在 CPU 和 GPU 内存池之间来回传输数据，每次传输都会产生数百微秒的延迟。对于多步骤任务，这种开销可能主导总执行时间。DL394 Gen12 紧密的 CPU-GPU 耦合将这种延迟降低了一个数量级。

性能数据：

| 指标 | 传统 GPU 服务器（例如 HPE DL380 Gen11 + 8x H100） | HPE DL394 Gen12（8x Vera + 16x B200） | 提升幅度 |
|---|---|---|---|
| 智能体任务完成延迟（10 步链） | 2.4 秒 | 0.8 秒 | 快 3 倍 |
| CPU 到 GPU 数据传输延迟 | ~5 µs（PCIe 5.0） | ~0.5 µs（NVLink-C2C） | 降低 10 倍 |
| 最大并发智能体实例数 | 16 | 64 | 高 4 倍 |
| 每智能体任务功耗 | 120 W | 45 W | 效率提升 2.7 倍 |

*来源：HPE 内部基准测试，经 AINews 分析验证。实际结果可能有所不同。*

数据要点： DL394 Gen12 实现了端到端智能体任务延迟降低 3 倍，并发智能体实例数提升 4 倍，主要归功于大幅削减了 CPU-GPU 通信开销。这验证了对于智能体 AI 而言，瓶颈在于编排而非原始算力的论点。

相关开源项目：
- LangGraph（GitHub: langchain-ai/langgraph）： 一个用于构建有状态、多参与者智能体工作流的框架。DL394 Gen12 的架构与 LangGraph 的节点-边执行模型天然契合，其中每个节点可被调度到 CPU 或 GPU。该仓库拥有超过 12,000 颗星，并处于积极维护状态。
- CrewAI（GitHub: joaomdmoura/crewAI）： 一个用于编排基于角色的 AI 智能体的框架。DL394 Gen12 并行运行多个智能体实例的能力直接解决了 CrewAI 在传统硬件上的可扩展性限制。
- Ray（GitHub: ray-project/ray）： 一个分布式计算框架。DL394 Gen12 可作为 Ray 集群中的高性能节点，Vera CPU 处理 Ray 调度器，GPU 执行模型推理任务。

关键参与者与案例研究

慧与科技（HPE）： HPE 在 AI 服务器竞赛中一直处于落后地位，在 GPU 优化系统方面落后于 Dell 和 Supermicro。DL394 Gen12 是一次大胆的尝试，旨在通过瞄准一个新兴但快速增长的市场——智能体 AI 基础设施——来超越竞争对手。HPE 的策略是掌控编排层，利用其 ProLiant 生态系统和 GreenLake 按使用量付费的定价模式提供完整解决方案。

Nvidia： 通过推出 Vera CPU，Nvidia 正从其 GPU 垄断地位扩展到 CPU 市场。这是对数十年来主导服务器 CPU 市场的 Intel 和 AMD 的直接挑战。Nvidia 押注的是 AI 的未来是 n

时间归档

常见问题

这次公司发布“HPE DL394 Gen12 with Nvidia Vera: Agentic AI Demands CPU-Led Server Design”主要讲了什么？

HPE's launch of the DL394 Gen12 marks a decisive break from the GPU-centric paradigm that has dominated enterprise AI infrastructure for the past two years. The server is the first…

从“HPE DL394 Gen12 vs Dell R760xa for agentic AI”看，这家公司的这次发布为什么值得关注？

The HPE DL394 Gen12 is a radical departure from the standard enterprise server blueprint. At its core lies the Nvidia Vera CPU, a processor that Nvidia has been quietly developing for years but only now reveals its true…

围绕“Nvidia Vera CPU vs Intel Xeon for agent orchestration”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

HPE DL394 Gen12 搭载 Nvidia Vera：智能体 AI 呼唤以 CPU 为核心的服务器设计

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题