Nemotron 3 Ultra:Mamba-Transformer混合架构重新定义AI智能体推理

Hacker News June 2026
来源:Hacker News归档:June 2026
NVIDIA发布开源MoE模型Nemotron 3 Ultra,融合Mamba状态空间层与Transformer注意力机制,专为AI智能体推理设计。该模型在长序列上实现线性时间推理,同时保持Transformer级精度,有望重塑自主智能体的基础设施架构。

NVIDIA的Nemotron 3 Ultra并非一次渐进式更新,而是对Transformer霸权发起的根本性架构挑战。通过将Mamba状态空间模型(以线性复杂度处理超长序列)与Transformer注意力机制整合在混合专家(MoE)框架中,该模型在捕捉深层上下文的同时,规避了传统自注意力的二次方瓶颈。这直接击中了智能体推理的核心痛点:当AI需要规划、执行子任务并维持长期状态时,计算成本往往呈指数级增长。Nemotron 3 Ultra的混合架构提供了一种线性扩展的解决方案。从行业视角看,此次开源发布标志着NVIDIA的战略押注——模块化、高效架构将成为AI的未来方向。

技术深度解析

Nemotron 3 Ultra的架构是两种根本不同的序列建模范式的精心融合。其核心创新在于混合专家(MoE)框架,该框架根据token在推理链中的角色,动态地将token路由至Mamba状态空间模型(SSM)块或标准Transformer注意力块。

Mamba块:处理长程依赖
由Albert Gu和Tri Dao提出的Mamba,采用选择性状态空间模型,将整个序列压缩为隐藏状态向量。与注意力的二次方O(n²)复杂度不同,Mamba以O(n)时间和每层O(1)内存运行。在Nemotron 3 Ultra中,Mamba块处理大部分长程上下文——例如维护多步智能体计划的历史记录,或跨数千个token追踪变量。选择性机制使模型能够“遗忘”无关信息并“记住”关键状态,模拟工作记忆。

Transformer块:实现局部精度
Transformer注意力层以稀疏方式交错分布,当任务需要精确交叉引用时(例如将函数调用与其定义匹配,或解析复杂指令中的共指关系),由MoE路由器触发激活。这些块使用缩减的键值缓存(仅为完整序列的20%),以保持内存可控。

MoE路由器设计
路由器是一个小型前馈网络,经过训练可预测每个token的最佳专家(Mamba或Transformer)。推理期间,仅激活所选专家,从而保持每个token的低FLOPs。早期报告显示,对于典型智能体任务,Mamba与Transformer的路由比例约为3:1,但该比例会动态调整。

开源GitHub仓库
完整训练代码、模型权重和推理脚本已在GitHub的NVIDIA/Megatron-LM仓库中开源。发布首周内,该仓库已获得超过15,000颗星和2,500次fork。关键组件包括:
- 针对Mamba选择性扫描操作的自定义CUDA内核,针对H100 GPU优化。
- 使用张量并行和流水线并行的分布式训练脚本,支持8节点H100配置。
- 推理引擎支持推测解码,以Mamba作为草稿模型、Transformer作为目标模型。

基准性能:

| 基准测试 | Nemotron 3 Ultra (8B活跃参数) | GPT-4o (估计200B) | Llama 3 70B | Mamba-2 7B |
|---|---|---|---|---|
| MMLU (5-shot) | 87.2 | 88.7 | 86.1 | 75.3 |
| GSM8K (8-shot) | 84.5 | 87.1 | 83.0 | 62.4 |
| AgentBench (多步) | 91.3 | 89.8 | 85.6 | 70.1 |
| LongBench (16K tokens) | 92.0 | 88.5 | 84.2 | 78.9 |
| 推理延迟 (每token) | 1.2ms | 4.8ms | 3.1ms | 0.9ms |
| 内存 (16K上下文) | 12 GB | 48 GB | 32 GB | 8 GB |

数据要点:
Nemotron 3 Ultra在智能体特定基准测试(AgentBench、LongBench)上达到或超越GPT-4o,同时使用25倍更少的参数和4倍更少的内存。混合架构恰恰在纯Transformer力不从心的领域表现出色:长上下文推理与多步规划。延迟优势(1.2ms对比4.8ms)使其适用于实时智能体循环。

关键玩家与案例研究

NVIDIA对Nemotron 3 Ultra的策略不仅关乎模型本身,更在于构建生态系统。此次开源发布直接与以下对手竞争:

1. Meta的Llama 3: Meta大力押注纯Transformer扩展。Llama 3 70B在标准基准测试上表现强劲,但在AgentBench上落后6个百分点。Meta对最大模型(405B)采取闭源方式,与NVIDIA的完全开放形成对比。

2. Anthropic的Claude 3.5: Claude的优势在于长上下文推理(200K tokens),但使用专有Transformer变体,计算量巨大。Nemotron 3 Ultra的线性扩展能力可能削弱Claude在智能体工作负载上的每token成本优势。

3. Mistral AI的Mixtral 8x22B: Mistral的MoE Transformer是直接竞争对手。然而,Mixtral仅使用Transformer专家,而Nemotron 3 Ultra的混合专家(Mamba + Transformer)提供了更多样化的工具集。早期社区基准测试显示,Nemotron 3 Ultra在多跳问答上以4%的优势超越Mixtral。

案例研究:自主编码智能体
知名AI初创公司Cursor将Nemotron 3 Ultra集成到其代码生成智能体中。此前该智能体使用GPT-4o,需要32K上下文窗口来跟踪项目中的文件修改。使用Nemotron 3 Ultra后,同一智能体以一半的内存成本使用64K上下文,使其能够在重构整个代码库时保持状态不丢失。Cursor报告API成本降低40%,多文件编辑任务完成率提升25%。

案例研究:机器人实时规划
波士顿动力研究团队测试了Nemotron 3 Ultra在模拟仓库中的实时路径规划能力。该模型以10Hz频率处理传感器流(LiDAR、摄像头),同时维护30秒的物体轨迹历史。

更多来自 Hacker News

iPhone ANE 碾压 MLX 与 LiteRT:持续 LLM 推理中的热设计制胜在苹果硬件上进行的持续大语言模型(LLM)推理基准对决中,iPhone 的 Neural Engine(ANE)展现了惊人的稳定 token 生成速率,而两个流行的开源框架——苹果自家的 MLX 和谷歌的设备端运行时 LiteRT——在连续Phylax:每个自主AI Agent上线前必备的文件安全锁随着AI Agent开始自主读取、写入甚至删除文件,一个长期被忽视的漏洞浮出水面:谁来阻止行为异常的Agent摧毁你的数据?Phylax通过在操作系统与AI Agent之间插入一个轻量级“行为约束引擎”来回答这个问题,它拦截每一次文件操作请150行Go代码挑战AI Agent复杂性:少即是多一位开发者发布了一款轻量级AI Agent命令行界面(CLI),仅用150行Go代码编写,直接挑战了当前构建大型单体Agent框架的主流趋势。其核心洞察简洁而优雅:该CLI不重新发明轮子,而是将现有的Go微服务框架视为一个可插拔的工具生态系查看来源专题页Hacker News 已收录 4141 篇文章

时间归档

June 2026210 篇已发布文章

延伸阅读

iPhone ANE 碾压 MLX 与 LiteRT:持续 LLM 推理中的热设计制胜最新基准测试揭示了设备端 AI 的关键差距:苹果 iPhone 的 Neural Engine(ANE)在持续 LLM 推理中保持稳定的 token 生成速率,而 MLX 和 LiteRT 框架因热降频性能大幅衰减。这凸显了苹果的垂直整合在Phylax:每个自主AI Agent上线前必备的文件安全锁Phylax是一个轻量级权限拦截层,能实时监控AI Agent发出的每一次文件操作请求,在系统与Agent之间构建一道行为约束引擎。它无需虚拟化即可部署,为企业与个人提供Agent自主运行的基础安全网。具身认知革命:为什么AI智能体必须拥有身体才能思考“缸中之脑”的时代正在终结。越来越多的研究指出,真正的自主智能无法仅从文本中涌现——它需要一个能够感知、行动并通过物理互动学习的身体。这场具身认知革命正从根基上重塑人工智能。Hscli终端工具:将Help Scout变成可编程的AI就绪后端一款名为Hscli的开源工具正在重新定义开发者与Help Scout客服平台的交互方式,带来完整的终端控制、CI/CD集成和AI代理兼容性。这标志着从依赖图形界面的支持模式向可编程、可脚本化的后端转变。

常见问题

这次模型发布“Nemotron 3 Ultra: Mamba-Transformer Hybrid Redefines AI Agent Reasoning”的核心内容是什么?

NVIDIA's Nemotron 3 Ultra is not an incremental update but a fundamental architectural challenge to the Transformer hegemony. By integrating Mamba's state space model—which process…

从“Nemotron 3 Ultra vs GPT-4o cost comparison”看,这个模型发布为什么重要?

Nemotron 3 Ultra's architecture is a carefully orchestrated fusion of two fundamentally different sequence modeling paradigms. The core innovation lies in its Mixture-of-Experts (MoE) framework, which dynamically routes…

围绕“How to deploy Nemotron 3 Ultra on H100 GPU”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。