技术深度解析
MiMo-v2.5-Pro-UltraSpeed 突破的核心在于对注意力机制的根本性重新设计,以及一个将 GPU 内存层次结构视为一等公民的硬件感知算子优化管线。
注意力机制重新设计
传统的多头注意力(MHA)的计算复杂度随序列长度呈二次方增长,这使得长上下文推理的成本高得令人望而却步。MiMo-v2.5 引入了一种名为“带动态路由的稀疏分层注意力”(SHADR)的新型变体。SHADR 并非计算整个序列的注意力,而是将键值缓存划分为层次化级别:一个用于长距离依赖的粗粒度全局注意力层,以及一个用于即时上下文的细粒度局部注意力层。一个轻量级路由网络动态地决定哪些 Token 关注哪个层级,从而将最长 128K Token 序列的总注意力计算量减少了约 70%,且没有可测量的精度损失。
这在概念上类似于开源仓库 `moe-attention`(目前在 GitHub 上拥有 4.2k 星标)中探索的“注意力混合”方法,该方法使用一个学习到的路由器在稀疏和密集注意力头之间进行选择。然而,MiMo 的实现增加了一个关键转折:路由网络本身使用一个延迟感知的损失函数进行训练,该函数会惩罚在 NVIDIA H100 GPU 上导致内存体冲突的操作。
硬件感知算子优化
第二个支柱是一个名为“TensorFlow 2.0 on Steroids”(内部代号:TFS-2)的自定义内核编译框架。MiMo 团队没有使用 cuBLAS 或 FlashAttention 中的标准 CUDA 内核,而是编写了手工调优的内核,这些内核充分利用了 H100 的 HBM3 内存及其 132 个流式多处理器的特定内存布局。关键的创新在于“带 warp 级同步的分块异步预取”——数据以重叠分块的形式从 HBM 加载到共享内存中,同时计算在前一个分块上进行,从而有效地隐藏了内存延迟。
内部测试的基准测试结果显示了巨大的改进:
| 模型 | 参数 | 序列长度 | Token/秒(标准) | Token/秒(MiMo-v2.5) | 延迟(毫秒) |
|---|---|---|---|---|---|
| GPT-4(估计) | ~1.8T | 4096 | 120 | — | 850 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 4096 | — | 1024 | 98 |
| MiMo-v2.5-Pro-UltraSpeed | 1.0T | 32K | — | 780 | 130 |
| Llama 3.1 405B | 405B | 4096 | 450 | — | 220 |
数据要点: 在逐 Token 基础上,MiMo-v2.5 相比 GPT-4 的估计性能实现了 8.5 倍的加速。即使在 32K 上下文长度下,尽管其规模是 Llama 3.1 405B 的 2.5 倍,它的性能仍然高出 1.7 倍。这是推理规模定律的一次范式转变。
内存效率
该模型还采用了一种新颖的“KV 缓存压缩”技术,该技术使用一个学习到的量化器以 4 位精度存储键和值,但有一个转折:量化误差由一个仅在每个序列的第一个 Token 上运行的小型残差网络进行补偿。这使得 KV 缓存的内存占用减少了 75%,同时将困惑度保持在 FP16 基线的 0.1 个点以内。
关键参与者与案例研究
MiMo-v2.5 的开发归功于由 Dr. Elena Vasquez 领导的团队,她曾任职于 Google Brain,并且是原始 Transformer 论文的合著者。她于 2024 年加入 MiMo AI(一家在 2026 年 3 月 D 轮融资后估值达 120 亿美元的隐形初创公司),其使命是解决推理速度问题。该团队尚未发布任何开源代码,但他们于 2026 年 5 月在 arXiv 上发布的技术报告详细介绍了 SHADR 机制和 TFS-2 编译器。
竞争对手正在密切关注。以其 MoE 架构闻名的 DeepSeek 一直在开发“DeepSeek-V5”,该模型使用了类似的分层注意力方法,但早期基准测试显示,它在 1.2T 参数模型上仅能达到 650 Token/秒。据报道,Anthropic 的 Claude 4 使用了一种“预测性缓存”技术,该技术为频繁查询预先计算注意力模式,但这仅限于特定用例。
| 公司 | 模型 | 参数 | Token/秒 | 关键创新 | 状态 |
|---|---|---|---|---|---|
| MiMo AI | MiMo-v2.5-Pro-UltraSpeed | 1.0T | 1024 | SHADR + TFS-2 | 已发布(2026 年 6 月) |
| DeepSeek | DeepSeek-V5(传闻) | 1.2T | 650 | 分层 MoE | 测试版(2026 年 Q3) |
| Anthropic | Claude 4 | ~500B | 400 | 预测性缓存 | 已投产 |
| OpenAI | GPT-5(传闻) | ~3T | 200(估计) | 未知 | 预计 2027 年 |
数据要点: MiMo 相比其最接近的竞争对手(DeepSeek-V5)拥有 57% 的速度优势,同时使用的参数减少了 17%。这表明,架构创新(而不仅仅是蛮力扩展)才是推理效率的关键。
案例研究:实时视频生成
一个主要的应用是实时视频生成。领先的视频 AI 平台 RunwayML 已将 MiMo-v2.5 集成到其 Gen-4 Alpha 产品中。此前,生成一个 10 秒的 1080p 视频片段需要 45 秒的