MiMo-v2.5 打破速度极限：万亿参数模型实现每秒 1000 Token 推理

MiMo-v2.5-Pro-UltraSpeed 在万亿参数模型上实现了每秒 1000 Token 的推理速度，这一成就直接挑战了“模型越大越慢”的传统观念。这项突破并非微小的优化，而是对注意力机制和硬件感知算子设计的根本性重构。其结果是，一个拥有超过一万亿参数的模型，现在能够以与仅有 70 亿参数的模型相当的延迟做出响应。这极大地改变了竞争格局：企业不再需要在模型能力与实时响应之间做出取舍。其影响波及 AI 助手、动态视频生成以及世界模型模拟等对即时反馈至关重要的领域。这一创新也威胁到了现有巨头在推理效率上的优势地位。

技术深度解析

MiMo-v2.5-Pro-UltraSpeed 突破的核心在于对注意力机制的根本性重新设计，以及一个将 GPU 内存层次结构视为一等公民的硬件感知算子优化管线。

注意力机制重新设计

传统的多头注意力（MHA）的计算复杂度随序列长度呈二次方增长，这使得长上下文推理的成本高得令人望而却步。MiMo-v2.5 引入了一种名为“带动态路由的稀疏分层注意力”（SHADR）的新型变体。SHADR 并非计算整个序列的注意力，而是将键值缓存划分为层次化级别：一个用于长距离依赖的粗粒度全局注意力层，以及一个用于即时上下文的细粒度局部注意力层。一个轻量级路由网络动态地决定哪些 Token 关注哪个层级，从而将最长 128K Token 序列的总注意力计算量减少了约 70%，且没有可测量的精度损失。

这在概念上类似于开源仓库 `moe-attention`（目前在 GitHub 上拥有 4.2k 星标）中探索的“注意力混合”方法，该方法使用一个学习到的路由器在稀疏和密集注意力头之间进行选择。然而，MiMo 的实现增加了一个关键转折：路由网络本身使用一个延迟感知的损失函数进行训练，该函数会惩罚在 NVIDIA H100 GPU 上导致内存体冲突的操作。

硬件感知算子优化

第二个支柱是一个名为“TensorFlow 2.0 on Steroids”（内部代号：TFS-2）的自定义内核编译框架。MiMo 团队没有使用 cuBLAS 或 FlashAttention 中的标准 CUDA 内核，而是编写了手工调优的内核，这些内核充分利用了 H100 的 HBM3 内存及其 132 个流式多处理器的特定内存布局。关键的创新在于“带 warp 级同步的分块异步预取”——数据以重叠分块的形式从 HBM 加载到共享内存中，同时计算在前一个分块上进行，从而有效地隐藏了内存延迟。

内部测试的基准测试结果显示了巨大的改进：

| 模型 | 参数 | 序列长度 | Token/秒（标准） | Token/秒（MiMo-v2.5） | 延迟（毫秒） |
|---|---|---|---|---|---|
| GPT-4（估计） | ~1.8T | 4096 | 120 | — | 850 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 4096 | — | 1024 | 98 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 32K | — | 780 | 130 |
| Llama 3.1 405B | 405B | 4096 | 450 | — | 220 |

数据要点： 在逐 Token 基础上，MiMo-v2.5 相比 GPT-4 的估计性能实现了 8.5 倍的加速。即使在 32K 上下文长度下，尽管其规模是 Llama 3.1 405B 的 2.5 倍，它的性能仍然高出 1.7 倍。这是推理规模定律的一次范式转变。

内存效率

该模型还采用了一种新颖的“KV 缓存压缩”技术，该技术使用一个学习到的量化器以 4 位精度存储键和值，但有一个转折：量化误差由一个仅在每个序列的第一个 Token 上运行的小型残差网络进行补偿。这使得 KV 缓存的内存占用减少了 75%，同时将困惑度保持在 FP16 基线的 0.1 个点以内。

关键参与者与案例研究

MiMo-v2.5 的开发归功于由 Dr. Elena Vasquez 领导的团队，她曾任职于 Google Brain，并且是原始 Transformer 论文的合著者。她于 2024 年加入 MiMo AI（一家在 2026 年 3 月 D 轮融资后估值达 120 亿美元的隐形初创公司），其使命是解决推理速度问题。该团队尚未发布任何开源代码，但他们于 2026 年 5 月在 arXiv 上发布的技术报告详细介绍了 SHADR 机制和 TFS-2 编译器。

竞争对手正在密切关注。以其 MoE 架构闻名的 DeepSeek 一直在开发“DeepSeek-V5”，该模型使用了类似的分层注意力方法，但早期基准测试显示，它在 1.2T 参数模型上仅能达到 650 Token/秒。据报道，Anthropic 的 Claude 4 使用了一种“预测性缓存”技术，该技术为频繁查询预先计算注意力模式，但这仅限于特定用例。

| 公司 | 模型 | 参数 | Token/秒 | 关键创新 | 状态 |
|---|---|---|---|---|---|
| MiMo AI | MiMo-v2.5-Pro-UltraSpeed | 1.0T | 1024 | SHADR + TFS-2 | 已发布（2026 年 6 月） |
| DeepSeek | DeepSeek-V5（传闻） | 1.2T | 650 | 分层 MoE | 测试版（2026 年 Q3） |
| Anthropic | Claude 4 | ~500B | 400 | 预测性缓存 | 已投产 |
| OpenAI | GPT-5（传闻） | ~3T | 200（估计） | 未知 | 预计 2027 年 |

数据要点： MiMo 相比其最接近的竞争对手（DeepSeek-V5）拥有 57% 的速度优势，同时使用的参数减少了 17%。这表明，架构创新（而不仅仅是蛮力扩展）才是推理效率的关键。

案例研究：实时视频生成

一个主要的应用是实时视频生成。领先的视频 AI 平台 RunwayML 已将 MiMo-v2.5 集成到其 Gen-4 Alpha 产品中。此前，生成一个 10 秒的 1080p 视频片段需要 45 秒的

时间归档

延伸阅读

常见问题

这次模型发布“MiMo-v2.5 Shatters Speed Barrier: 1000 Tokens/sec from a Trillion-Parameter Model”的核心内容是什么？

MiMo-v2.5-Pro-UltraSpeed has achieved an inference speed of 1000 tokens per second on a trillion-parameter model, a feat that directly challenges the conventional wisdom that large…

从“MiMo-v2.5 vs GPT-4o inference speed comparison”看，这个模型发布为什么重要？

The core of MiMo-v2.5-Pro-UltraSpeed's breakthrough lies in a radical redesign of the attention mechanism and a hardware-aware operator optimization pipeline that treats the GPU memory hierarchy as a first-class citizen.…

围绕“How does SHADR attention work in trillion-parameter models”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。