小米MiMo推出「通证计划」：为下一代AI智能体提供统一燃料

小米MiMo部门通过推出「通证计划」，从根本上重构了AI服务的打包与销售方式。这不仅是定价策略的调整，更是对AI应用开发未来的一次战略性押注。该计划将MiMo全套多模态能力——包括文本生成、图像创作、视频分析和语音合成——的访问权限整合至一个统一的通用通证池中。开发者和企业用户订阅一定额度的通证后，可根据需要将这些服务任意组合使用，为运行于多感官领域的复杂AI智能体提供动力。

其重要性在于与新兴的AI智能体范式高度契合。一个单一的智能体任务，例如「分析此产品演示视频并起草一份营销文案」，传统上需要串联多个专用API，涉及复杂的成本核算与流程编排。而通过MiMo的通证系统，此类工作流被简化为从同一资源池中消耗通证，大幅降低了开发门槛与运营复杂性。

此举标志着行业从提供「工具」向提供「燃料」的深刻转变。小米正试图将MiMo定位为AI原生应用的基础设施层，其通证则成为驱动这个生态系统的标准货币。这种模式若成功，可能推动AI智能体开发从当前的手工作坊式，迈向更工业化、可预测的规模化生产阶段。对于开发者而言，这意味着他们可以更专注于智能体的逻辑与创新，而无需深陷于对不同服务供应商的计费集成与成本优化之中。

技术深度解析

「通证计划」的核心是一个雄心勃勃的工程学与经济学抽象层。从技术角度看，MiMo必须维护一套精密的内部路由与成本校准系统。当开发者发起一个API调用——无论是用于文本补全还是视频生成——请求会首先根据用户的通证余额进行认证。随后，一个中央「编排器」服务将任务路由至相应的专用模型（例如MiMo-Text、MiMo-Vision、MiMo-Audio）或统一的多模态主干模型。其关键创新在于针对非文本模态的「通证化」机制。

与具有相对标准计算方式的文本通证（例如，1个通证≈4个字符）不同，将生成一张1024x1024图像或分析一段60秒视频的「成本」量化为等价通证，绝非易事。MiMo很可能采用了计算成本等价模型。该模型将GPU秒数、内存带宽和模型参数激活量转化为统一的通证成本。例如，生成一张高分辨率图像可能定价为500个「标准通证」，相当于生成2000个字符的文本，这反映了更高的计算负载。

这要求一个高效、共享的基础设施。MiMo很可能为其底层模型采用了专家混合架构，其中不同的「专家」子网络处理不同的模态或任务。一个视频描述请求可能会在同一模型框架内激活视觉专家和语言专家。通证系统则根据激活的专家数量、类型及其使用时长进行计费。项目名称「MiMo」本身就暗示了这一架构，可能代表「多模态专家混合」。

一个相关的开源范例是LLaVA（大型语言与视觉助手） GitHub仓库。虽然LLaVA并非商业平台，但其演进过程展示了视觉编码器与LLM的技术集成。MiMo的商业化实现需要大幅扩展这一概念，并配备健壮、低延迟的服务基础设施。通证计划的可行性正依赖于这种可扩展、成本优化的后端。

| 任务类型 | 传统API模式（示例） | MiMo通证计划等价方案（估算） | 开发者复杂度 |
|---|---|---|---|
| 生成500字文章 | 调用GPT-4 Turbo：约$0.06 | 从池中扣除约1500通证 | 低 |
| 创建产品图像 | 调用DALL-E 3：每图$0.04 | 从池中扣除约1000通证 | 低 |
| 分析5分钟会议音频 | 调用Whisper + GPT-4：约$0.12 | 从池中扣除约3000通证 | 高（需要链式调用） |
| 完整智能体任务： 总结视频并创建帖子 | 3次独立的API调用，价格各异 | 单一工作流，扣除约4000通证 | 显著简化 |

数据要点： 上表阐明了核心价值主张：简化与可预测性。传统模式需要管理多个端点和成本结构，对于智能体工作流而言，其复杂度呈指数级增长。MiMo的通证计划将其压缩为单一、可预测的资源消耗，直接降低了构建复杂智能体的门槛。

关键参与者与案例分析

「通证计划」使MiMo直接与AI行业领导者的既定定价范式展开竞争。

OpenAI 目前采用模态孤立的模式：文本模型（GPT-4）按通证单独定价，DALL-E按图像定价，Whisper按分钟定价。这反映了他们在各领域历史性的、追求最佳的策略。对于构建智能体的开发者而言，这迫使他们需要构建成本聚合层并管理多个计费关系。Anthropic的Claude 虽然在长上下文文本处理上表现出色，但直到最近才增加视觉能力，且在很大程度上仍遵循文本的输入/输出通证计费模式。

Google的Gemini 家族是概念上最接近的竞争对手，因为它从设计之初就是原生多模态的。然而，其API定价虽然在模态上是统一的，但仍区分图像和视频的输入与输出通证。例如，处理一个视频帧会产生成本。MiMo的通证计划似乎是一种进一步的抽象，旨在实现更简单的「一通证通吃」心智模型。

一个关键的案例是Midjourney。其成功建立在简单的订阅模式（基础版、标准版、专业版）之上，该模式为用户提供每月一定额度的GPU分钟数以用于图像生成。这种可预测的、限额内「随心用」的模式催生了惊人的社区增长和用户忠诚度。MiMo的通证计划可被视为将这种订阅理念扩展到整个AI任务谱系，目标用户从消费者转向了开发者。

| 公司 / 模型 | 主要定价模式 | 多模态统一程度 | 目标用户 | 战略姿态 |
|---|---|---|---|---|
| Xiaomi MiMo | 统一通证订阅 | 高（所有模态作为一个通证池） | 开发者与企业 | 颠覆者：通过简化与抽象降低智能体开发门槛 |
| OpenAI (GPT-4, DALL-E) | 按模态/功能分别定价 | 低（各模态独立计费） | 开发者与企业 | 深耕者：维持各垂直领域的最佳性能与独立优化 |
| Google Gemini | 统一但区分输入/输出的通证定价 | 中（统一API，但模态内部有细分） | 开发者与企业 | 整合者：强调原生多模态能力，计费向传统文本模式靠拢 |
| Midjourney | 基于GPU时间的订阅制 | 单一（仅图像生成） | 消费者与创作者 | 垂直专家：通过极致简化的订阅模型占领特定市场 |

竞争格局解读： MiMo的策略并非单纯的价格战，而是通过创造新的交易单位来重塑竞争维度。它直接挑战了当前AI服务「按件计费」的主流思维，试图建立一种更接近云计算资源（如计算小时、存储GB）的消耗模式。这种模式若被市场接受，可能迫使其他平台厂商重新考虑其定价策略的复杂性，尤其是在面向AI智能体开发这一快速增长的市场时。

市场影响与未来展望

MiMo通证计划的推出，可能从三个层面扰动市场：

1. 开发者体验革命： 对于中小型开发团队和独立开发者而言，管理多个AI服务供应商的成本和集成工作是一项沉重负担。统一的通证池和简化的计费方式，将显著降低其试错成本和运营开销，可能激发一波围绕复杂多模态智能体的创新热潮。
2. 企业采购模式变迁： 企业IT采购倾向于可预测的预算。传统按API调用量阶梯计价的模式常导致预算不可控。订阅制的通证包提供了成本上限的确定性，更符合企业财务管理的需求，可能加速AI能力在企业内部工作流中的渗透。
3. 生态锁定与标准之争： 通证本质上是一种生态内流通的「货币」。如果开发者大量采用MiMo通证作为其智能体的主要「燃料」，就会形成生态依赖。小米可能借此构建以MiMo为核心的开发者生态，其通证则成为连接模型、算力与应用的纽带。这引发了一场关于「AI智能体基础资源标准」的潜在竞争。

然而，该计划也面临显著挑战。首先，内部成本等价模型的公平性与透明度至关重要。如果开发者认为图像生成「太贵」或文本处理「太便宜」，可能会扭曲使用模式，影响系统经济平衡。其次，小米需要在多模态模型的绝对性能上持续追赶甚至超越OpenAI、Google等巨头，否则「便利性」优势可能被「能力差距」所抵消。最后，市场教育成本高昂，需要改变开发者根深蒂固的按服务采购习惯。

未来预测： 短期内，我们可能会看到其他多模态模型提供商（特别是中国本土厂商）推出类似的简化定价方案作为回应。中长期看，如果通证模式盛行，可能会出现跨平台的通证兑换甚至「通证聚合器」，进一步抽象底层基础设施。最终，AI能力的消费可能变得像今天使用云计算一样，开发者只需关注需要多少「智能计算单元」，而无需关心这些单元具体由哪个模型在哪个数据中心提供。MiMo的通证计划，正是向这个未来迈出的激进一步。

延伸阅读

常见问题

这次公司发布“Xiaomi MiMo's Token Plan: The Unified Fuel Powering Next-Generation AI Agents”主要讲了什么？

Xiaomi's MiMo division has fundamentally reimagined how AI services are packaged and sold with the introduction of its 'Token Plan.' This is not merely a pricing adjustment but a s…

从“Xiaomi MiMo token plan vs OpenAI API cost calculator”看，这家公司的这次发布为什么值得关注？

At its core, the Token Plan is an ambitious engineering and economic abstraction layer. Technically, MiMo must maintain a sophisticated internal routing and cost-calibration system. When a developer makes an API call—whe…

围绕“how to build multimodal AI agent with MiMo token subscription”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。