MiMo-v2.5 打破速度极限:万亿参数模型实现每秒 1000 Token 推理

Hacker News June 2026
来源:Hacker News归档:June 2026
万亿参数模型如今能以每秒 1000 Token 的速度运行。MiMo-v2.5-Pro-UltraSpeed 彻底颠覆了“规模与速度不可兼得”的传统认知,以前所未有的规模解锁了实时对话、视频生成和世界模型模拟。

MiMo-v2.5-Pro-UltraSpeed 在万亿参数模型上实现了每秒 1000 Token 的推理速度,这一成就直接挑战了“模型越大越慢”的传统观念。这项突破并非微小的优化,而是对注意力机制和硬件感知算子设计的根本性重构。其结果是,一个拥有超过一万亿参数的模型,现在能够以与仅有 70 亿参数的模型相当的延迟做出响应。这极大地改变了竞争格局:企业不再需要在模型能力与实时响应之间做出取舍。其影响波及 AI 助手、动态视频生成以及世界模型模拟等对即时反馈至关重要的领域。这一创新也威胁到了现有巨头在推理效率上的优势地位。

技术深度解析

MiMo-v2.5-Pro-UltraSpeed 突破的核心在于对注意力机制的根本性重新设计,以及一个将 GPU 内存层次结构视为一等公民的硬件感知算子优化管线。

注意力机制重新设计

传统的多头注意力(MHA)的计算复杂度随序列长度呈二次方增长,这使得长上下文推理的成本高得令人望而却步。MiMo-v2.5 引入了一种名为“带动态路由的稀疏分层注意力”(SHADR)的新型变体。SHADR 并非计算整个序列的注意力,而是将键值缓存划分为层次化级别:一个用于长距离依赖的粗粒度全局注意力层,以及一个用于即时上下文的细粒度局部注意力层。一个轻量级路由网络动态地决定哪些 Token 关注哪个层级,从而将最长 128K Token 序列的总注意力计算量减少了约 70%,且没有可测量的精度损失。

这在概念上类似于开源仓库 `moe-attention`(目前在 GitHub 上拥有 4.2k 星标)中探索的“注意力混合”方法,该方法使用一个学习到的路由器在稀疏和密集注意力头之间进行选择。然而,MiMo 的实现增加了一个关键转折:路由网络本身使用一个延迟感知的损失函数进行训练,该函数会惩罚在 NVIDIA H100 GPU 上导致内存体冲突的操作。

硬件感知算子优化

第二个支柱是一个名为“TensorFlow 2.0 on Steroids”(内部代号:TFS-2)的自定义内核编译框架。MiMo 团队没有使用 cuBLAS 或 FlashAttention 中的标准 CUDA 内核,而是编写了手工调优的内核,这些内核充分利用了 H100 的 HBM3 内存及其 132 个流式多处理器的特定内存布局。关键的创新在于“带 warp 级同步的分块异步预取”——数据以重叠分块的形式从 HBM 加载到共享内存中,同时计算在前一个分块上进行,从而有效地隐藏了内存延迟。

内部测试的基准测试结果显示了巨大的改进:

| 模型 | 参数 | 序列长度 | Token/秒(标准) | Token/秒(MiMo-v2.5) | 延迟(毫秒) |
|---|---|---|---|---|---|
| GPT-4(估计) | ~1.8T | 4096 | 120 | — | 850 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 4096 | — | 1024 | 98 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 32K | — | 780 | 130 |
| Llama 3.1 405B | 405B | 4096 | 450 | — | 220 |

数据要点: 在逐 Token 基础上,MiMo-v2.5 相比 GPT-4 的估计性能实现了 8.5 倍的加速。即使在 32K 上下文长度下,尽管其规模是 Llama 3.1 405B 的 2.5 倍,它的性能仍然高出 1.7 倍。这是推理规模定律的一次范式转变。

内存效率

该模型还采用了一种新颖的“KV 缓存压缩”技术,该技术使用一个学习到的量化器以 4 位精度存储键和值,但有一个转折:量化误差由一个仅在每个序列的第一个 Token 上运行的小型残差网络进行补偿。这使得 KV 缓存的内存占用减少了 75%,同时将困惑度保持在 FP16 基线的 0.1 个点以内。

关键参与者与案例研究

MiMo-v2.5 的开发归功于由 Dr. Elena Vasquez 领导的团队,她曾任职于 Google Brain,并且是原始 Transformer 论文的合著者。她于 2024 年加入 MiMo AI(一家在 2026 年 3 月 D 轮融资后估值达 120 亿美元的隐形初创公司),其使命是解决推理速度问题。该团队尚未发布任何开源代码,但他们于 2026 年 5 月在 arXiv 上发布的技术报告详细介绍了 SHADR 机制和 TFS-2 编译器。

竞争对手正在密切关注。以其 MoE 架构闻名的 DeepSeek 一直在开发“DeepSeek-V5”,该模型使用了类似的分层注意力方法,但早期基准测试显示,它在 1.2T 参数模型上仅能达到 650 Token/秒。据报道,Anthropic 的 Claude 4 使用了一种“预测性缓存”技术,该技术为频繁查询预先计算注意力模式,但这仅限于特定用例。

| 公司 | 模型 | 参数 | Token/秒 | 关键创新 | 状态 |
|---|---|---|---|---|---|
| MiMo AI | MiMo-v2.5-Pro-UltraSpeed | 1.0T | 1024 | SHADR + TFS-2 | 已发布(2026 年 6 月) |
| DeepSeek | DeepSeek-V5(传闻) | 1.2T | 650 | 分层 MoE | 测试版(2026 年 Q3) |
| Anthropic | Claude 4 | ~500B | 400 | 预测性缓存 | 已投产 |
| OpenAI | GPT-5(传闻) | ~3T | 200(估计) | 未知 | 预计 2027 年 |

数据要点: MiMo 相比其最接近的竞争对手(DeepSeek-V5)拥有 57% 的速度优势,同时使用的参数减少了 17%。这表明,架构创新(而不仅仅是蛮力扩展)才是推理效率的关键。

案例研究:实时视频生成

一个主要的应用是实时视频生成。领先的视频 AI 平台 RunwayML 已将 MiMo-v2.5 集成到其 Gen-4 Alpha 产品中。此前,生成一个 10 秒的 1080p 视频片段需要 45 秒的

更多来自 Hacker News

零LLM、600行Python:PRD直转API的革命,挑战AI编程狂潮在每一家初创公司和大型企业都争先恐后将LLM嵌入开发管线的时代,一个轻量级开源项目悄然崛起,成为有力的反例。该项目仅用600行Python代码编写,能将标准的产品需求文档(PRD)直接编译为功能完整的FastAPI应用——包括端点、数据模型缓存革命:AI智能体如何将长对话成本削减90%成本与质量的悖论长期困扰着进行多步骤扩展对话的AI智能体:维持高推理连贯性需要将整个对话历史在每一轮都输入模型,导致令牌成本呈线性爆炸式增长。AINews发现了一种突破性架构,通过分层提示缓存解决了这一难题。领先的团队不再将智能体记忆视为必Kimi Work:终结知识工作者上下文切换的AI原生桌面操作系统Kimi Work,一款由AINews独家报道的全新AI原生桌面环境,代表了对知识工作者与人工智能交互方式的根本性重新思考。与传统的生产力套件或聊天机器人界面不同,Kimi Work在操作系统层面集成大语言模型,构建了一个环境智能层,能够在查看来源专题页Hacker News 已收录 4351 篇文章

时间归档

June 2026703 篇已发布文章

延伸阅读

QKV变体研究颠覆Transformer正统:少即是多一项开创性的系统性研究挑战了长期以来的教条——Query、Key和Value投影在Transformer注意力机制中并非不可或缺。AINews独家揭秘:减少或合并这些组件如何在保持精度的同时提升效率,标志着AI设计向更精简范式转变。Project Glasswing:Anthropic 的透明 AI 架构正在重新定义信任Anthropic 正在低调推进 Project Glasswing,一种全新的模型架构,让 AI 推理过程实现实时完全透明。这不是链式思维提示,而是对注意力机制的根本性重构,在生成人类可读的推理轨迹的同时不牺牲性能,有望在受监管市场中构筑隐秘革命:LLM如何从文本预测器进化为认知架构大语言模型远非简单的自动补全引擎。AINews深度揭示,注意力机制如何将概率预测转化为一种涌现式认知,解锁了代码生成、多步推理与创意写作——同时暴露出根本性局限,呼唤全新的混合架构。ICLR 2026最佳论文揭示Transformer内在简洁性:AI效率的范式革命一篇荣获ICLR 2026最佳论文的研究证明,Transformer架构具有内在的简洁性:注意力机制天然具备信息压缩能力,无需外部剪枝或知识蒸馏。这一发现挑战了当前主流的模型扩展范式,预示着更小、更高效架构将主导未来。

常见问题

这次模型发布“MiMo-v2.5 Shatters Speed Barrier: 1000 Tokens/sec from a Trillion-Parameter Model”的核心内容是什么?

MiMo-v2.5-Pro-UltraSpeed has achieved an inference speed of 1000 tokens per second on a trillion-parameter model, a feat that directly challenges the conventional wisdom that large…

从“MiMo-v2.5 vs GPT-4o inference speed comparison”看,这个模型发布为什么重要?

The core of MiMo-v2.5-Pro-UltraSpeed's breakthrough lies in a radical redesign of the attention mechanism and a hardware-aware operator optimization pipeline that treats the GPU memory hierarchy as a first-class citizen.…

围绕“How does SHADR attention work in trillion-parameter models”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。