小米AI模型降价99%：一场以生态为名的“特洛伊木马”攻势

小米宣布将其大语言模型API服务价格永久下调99%，这一举动在中国AI行业引发震动。新定价几乎碾压所有竞争对手，包括此前以成本优势著称的DeepSeek。表面上看，这似乎是一场绝望的价格战，但AINews的分析揭示了一个更为精妙的战略：小米正利用其无与伦比的硬件生态——超过5亿台联网IoT设备，涵盖智能手机、智能家居电器以及SU7电动汽车——来补贴AI服务。该公司实际上将AI视为“亏本引流”的利器，用以推动硬件销售并锁定用户。这种“硬件优先、AI其次”的策略彻底颠覆了传统的SaaS商业模式。风险显而易见：持续的低价策略可能挤压利润空间，但小米赌的是生态系统的长期价值。

技术深度解析

小米的大模型内部代号为“MiLM”（Xiaomi Large Model），并非单一的庞大模型，而是一系列针对不同硬件层级优化的模型家族。其架构基于混合专家（MoE）设计，允许模型在特定任务中仅激活部分参数，从而大幅降低推理成本。这对小米的战略至关重要：在设备端运行AI以处理延迟敏感型任务（例如智能音箱上的语音助手），同时利用云端处理繁重任务（例如旗舰手机上的复杂推理）。

MoE架构虽非创新（由Google的Switch Transformer首创，后被Mixtral 8x7B采用），但特别适合小米的异构硬件。该模型在设备端部署时采用INT4精度量化，相比FP16可将内存占用降低75%，而标准基准测试报告的准确率损失不到1%。这是通过结合训练后量化与从更大教师模型进行知识蒸馏实现的。

小米解决的一个关键工程难题是低功耗IoT设备上的“冷启动”问题。他们开发了名为“MiBrain Lite”的自定义推理引擎，采用两级缓存机制：一个始终在线的小型模型（小于100MB）处理简单的唤醒词检测和基本命令，而更大的模型则通过轻量级虚拟机监控程序按需加载。这使得Mi Smart Clock等设备能够以低于50毫秒的延迟和不到50毫瓦的功耗运行AI任务。

对于开发者而言，小米的API基于修改版的vLLM推理框架构建，并针对其自有服务器硬件（主要是符合出口管制规定的NVIDIA H20 GPU）进行了优化。99%的降价之所以可行，是因为小米拥有自己的数据中心，并以优惠价格签订了长期GPU供应合同，这是纯AI初创公司无法企及的成本优势。

数据表：模型性能对比

| 模型 | 参数（激活） | MMLU（5-shot） | GSM8K | 推理成本（每百万token） | 设备端延迟（毫秒） |
|---|---|---|---|---|---|
| MiLM-1.3B（设备端） | 1.3B（1.3B） | 45.2 | 34.1 | $0.001（降价后） | 15 |
| MiLM-7B（云端） | 7B（2.1B MoE） | 68.4 | 62.7 | $0.003（降价后） | 120 |
| MiLM-70B（云端） | 70B（12.5B MoE） | 82.1 | 78.3 | $0.01（降价后） | 350 |
| DeepSeek-V2 | 236B（21B MoE） | 78.5 | 79.2 | $0.14 | 无（仅云端） |
| GPT-4o mini | ~8B（估计） | 82.0 | 87.2 | $0.15 | 无 |

数据要点： 小米的模型在标准基准测试中落后于DeepSeek和GPT-4o mini，尤其是更大的70B变体。然而，成本优势惊人——比最接近的竞争对手便宜超过100倍。这表明小米有意用原始基准性能换取极致性价比，押注于大多数IoT用例（例如“关灯”、“天气如何”）无需近乎完美的准确率。

关键玩家与案例研究

小米 vs. DeepSeek：理念的碰撞

由梁文锋创立的DeepSeek，凭借以远低于美国同行的成本提供高性能模型而建立声誉。其DeepSeek-V2模型采用MoE架构，以十分之一的推理成本实现了GPT-4级别的性能。这使其成为注重成本的开发者和初创公司的宠儿。

小米的99%降价直接削弱了DeepSeek的核心价值主张。但两家公司基于截然不同的商业模式运营：

- DeepSeek 是一家纯AI公司。其收入完全来自API调用。价格战迫使他们要么烧钱，要么削减研发投入。他们没有硬件收入作为后盾。
- 小米是一家硬件公司。其AI API是一个成本中心，旨在增强其硬件生态系统的粘性。每个使用MiLM的开发者都更有可能针对小米设备优化其应用，从而形成正反馈循环。

案例研究：智能家居集成

设想一位开发者正在构建一个智能家居应用。使用DeepSeek的API，他们每百万token支付0.14美元。使用MiLM，他们只需支付0.003美元。对于一个每月处理1000万token的应用，每年可节省超过1.6万美元。开发者有动力使用MiLM，并且在此过程中，他们能够访问小米的设备SDK，该SDK提供了对超过200种IoT传感器的原生接口。这创造了一种“围墙花园”效应：开发者的应用在小米设备上表现最佳，而追求最佳体验的用户将购买小米硬件。

数据表：生态系统对比

| 公司 | 联网设备（百万台） | AI模型API价格（每百万token） | 硬件收入（2024年估计） | AI研发支出（2024年估计） |
|---|---|---|---|---|
| 小米 | 500+ | $0.003 | $450亿 | $20亿 |
| DeepSeek | 0（仅API） | $0.14 | $0 | $5亿 |
| 百度（ERNIE） | 100（估计） | $0.08 | $180亿 | $30亿 |
| 阿里巴巴（Qwen） | 200（估计） | $0.05 | $1300亿 | $50亿 |

数据要点： 小米庞大的硬件

时间归档

延伸阅读

常见问题

这次公司发布“Xiaomi's 99% Price Cut on AI Models: A Trojan Horse for Ecosystem Dominance”主要讲了什么？

In a move that has sent shockwaves through the Chinese AI industry, Xiaomi announced a permanent 99% reduction in the price of its large language model API services. The new pricin…

从“Xiaomi MiLM model benchmark performance vs DeepSeek”看，这家公司的这次发布为什么值得关注？

Xiaomi's large model, internally known as 'MiLM' (Xiaomi Large Model), is not a single monolithic model but a family of models optimized for different hardware tiers. The architecture is based on a Mixture-of-Experts (Mo…

围绕“Xiaomi AI API pricing after 99% cut”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。