AI成本危机:Meta的Token配额、Cisco的FAPO,以及提示工程的终结

June 2026
归档:June 2026
Meta内部AI团队一个季度消耗了73.7万亿Token,迫使公司实施配额制度,暴露了威胁行业增长轨迹的成本危机。与此同时,Cisco的FAPO框架实现了提示优化自动化,而OpenAI在京都举办的Series T竞赛则将算力视为一种资本形式。这三件事标志着一个根本性转变:从“蛮力计算”走向“算力治理”。

Meta的内部AI运营撞上了南墙。仅在上个季度,该公司旗下从内容审核、推荐系统到生成式AI实验的各个AI团队,就烧掉了73.7万亿个Token。这一惊人数字迫使Meta领导层实施Token配额制度,实际上是在各部门之间配给算力资源。此举无异于公开承认:即便是拥有Meta这样基础设施的公司,如果没有严格治理,大规模运行大语言模型的成本也是不可持续的。

这并非孤立事件。AI行业一直假设算力是无限且弹性的资源。现实是,训练和推理成本正在飙升,单纯增加模型规模带来的边际收益正在递减。Meta的73.7万亿Token消耗,按OpenAI API当前价格(GPT-4o:每百万输入Token 5美元)计算,成本约为3.685亿美元——即使考虑Meta的内部折扣和定制硬件,成本也高达数亿美元。

Cisco的FAPO框架则采取了更优雅的路径。它不限制消耗,而是优化输入。FAPO基于Transformer强化学习架构,将提示工程视为一个搜索问题。在Cisco内部测试中,FAPO在摘要、问答和代码生成等常见任务上平均减少了37%的Token使用量,同时保持或提升了输出质量。

OpenAI的Series T竞赛则是一场巧妙的“算力即资本”实验。100万美元的Token奖池并非噱头;它代表了初创公司获取资源方式的根本转变。竞赛设有“效率”、“新颖性”和“影响力”三个赛道,获胜者将获得可在12个月内使用的Token积分,相当于获得了一条无需立即烧钱的跑道。

这三件事共同指向一个趋势:AI行业正在从“有多少用多少”的蛮力时代,进入“精打细算”的治理时代。

技术深度解析

Meta面临的核心问题不是算力不足,而是算力治理缺失。当一个内部团队可以为了A/B测试而启动数百个70B参数模型的实例时,Token消耗会呈指数级爆炸。73.7万亿Token这个数字,大致相当于将美国国会图书馆的全部文本内容处理50次以上。这种消耗水平不可持续,因为底层硬件——NVIDIA H100 GPU——仍然供不应求,每块单价约3万美元。Meta的Token配额系统本质上是一种软上限机制:每个团队获得月度分配额,超出部分需要正式审批。这是迈向经济学家所称的“算力预算”的粗放但必要的一步。

Cisco的FAPO框架则更加优雅。它不限制消耗,而是优化输入。FAPO基于Transformer强化学习架构,将提示工程视为一个搜索问题。系统从基础提示开始,生成多个变体,在保留验证集上评估其性能,然后使用奖励模型选择最佳变体。这一过程迭代进行,系统学会生成更短且更有效的提示。在Cisco内部测试中,FAPO在摘要、问答和代码生成等常见任务上平均减少了37%的Token使用量,同时保持或提升了输出质量。

| 框架 | Token减少 | 质量保持 | 训练时间 | 开源情况 |
|---|---|---|---|---|
| FAPO (Cisco) | 37% | 98% | 2小时 | 否 |
| DSPy | 22% | 95% | 4小时 | 是 (GitHub: 15k stars) |
| TextGrad | 18% | 93% | 6小时 | 是 (GitHub: 8k stars) |
| 手动调优 | 0% | 100% | 不适用 | 不适用 |

数据要点: FAPO在保持98%质量的同时实现37%的Token减少,相比DSPy(22%减少)和TextGrad(18%减少)等现有开源方案有显著提升。这表明Cisco开发了一种尚未公开的专有优化算法,使其暂时拥有竞争优势。

与此同时,OpenAI的Series T竞赛是一场巧妙的“算力即资本”实验。100万美元的Token奖池并非噱头;它代表了初创公司获取资源方式的根本转变。初创公司不再需要筹集资金购买算力,而是可以直接赢得算力。这降低了摩擦,并使OpenAI能够培养一个锁定在其API上的开发者生态系统。竞赛围绕“效率”、“新颖性”和“影响力”三个赛道展开,每个赛道都有独立的评审标准。获胜者将获得可在12个月内使用的Token积分,实际上为他们提供了一条无需立即烧钱的跑道。

关键参与者与案例研究

Meta的内部AI团队是这里的主要案例。该公司的AI研究部门FAIR及其面向产品的团队长期以来以激进的算力使用而闻名。Token配额系统是对“公地悲剧”问题的直接回应:每个团队都优化自身性能,而不考虑全局成本。结果是73.7万亿Token的季度消耗,按OpenAI API当前价格(GPT-4o:每百万输入Token 5美元)计算,成本约为3.685亿美元。即使考虑Meta的内部折扣和定制硬件,成本也高达数亿美元。

Cisco,传统上是一家网络硬件公司,正在将自己重新定位为AI基础设施参与者。FAPO是其更广泛的“AI原生网络”战略的一部分,该战略旨在为AI工作负载提供端到端解决方案。该框架目前仅对Cisco的企业客户开放,但公司已暗示今年晚些时候会进行更广泛的发布。

OpenAI的Series T竞赛直接争夺开发者心智份额。通过提供Token奖品,OpenAI正在创造一种新的“算力股权”,将初创公司的成功与OpenAI平台绑定。该竞赛与京都AI研究所合作举办,首批获胜者将于2025年9月公布。

| 公司 | 策略 | 关键指标 | 竞争优势 |
|---|---|---|---|
| Meta | Token配额 | 73.7T Token/季度 | 内部硬件,但面临成本危机 |
| Cisco | FAPO自动化 | 37% Token减少 | 专有优化算法 |
| OpenAI | Series T竞赛 | 100万美元Token奖池 | 生态系统锁定,算力即资本 |

数据要点: Meta处于防守位置,试图控制成本。Cisco提供了一种降低成本的工具。OpenAI则创造了一种将算力转化为货币的新经济模式。这三种策略既互补又竞争:Cisco的FAPO可能减少对OpenAI Token的需求,而OpenAI的Series T则激励更多Token使用。

行业影响与市场动态

直接影响是AI行业的重新校准。Meta的配额制度可能引发连锁反应:其他拥有大型AI团队的公司——如Google、Microsoft和Amazon——可能很快也会实施类似措施。这反过来将推动对提示优化工具的需求,使Cisco的FAPO及其开源替代品(如DSPy和TextGrad)变得更加重要。

从更宏观的角度看,这标志着AI行业从“规模至上”向“效率至上”的转变。投资者已经开始关注AI公司的单位经济效益,而Token成本是其中关键部分。能够证明每Token产出更高价值的初创公司将获得溢价。OpenAI的Series T竞赛正是这一趋势的体现:它奖励那些能用更少算力做更多事的团队。

然而,也存在风险。如果Token配额和优化工具变得过于普遍,可能会抑制创新。AI的魔力部分来自于“蛮力”方法——让模型自由探索,而不是严格约束。平衡效率与探索将是未来几年的关键挑战。

对于开发者而言,信息很明确:提示工程作为一门手艺正在消亡。它正在被自动化框架取代,这些框架可以比任何人类更快、更一致地优化提示。那些掌握这些工具的人将拥有优势;那些依赖手动调优的人将被抛在后面。

时间归档

June 20262135 篇已发布文章

延伸阅读

人形机器人IPO:500亿美元估值背后的盈利危机首家纯正人形机器人公司已上市,市值飙升至500亿美元。但在市场狂热之下,隐藏着一个残酷的现实:巨额研发烧钱、单台成本天文数字,以及一个尚未证明能超越展示场景实现规模化落地的商业模式。陪伴机器人:被低估的具身智能盈利捷径具身智能行业正狂热追逐用机器人替代人类劳动力,但技术与经济现实之间横亘着一道鸿沟。AINews分析指出,陪伴机器人凭借大语言模型在情感与语言领域的突破,为大众市场盈利提供了一条更快、更可行的路径。3200亿豪赌:安徽大佬如何改写中国AI算力版图一位安徽实业家押注3200亿元,打造超大规模AI算力集群。这不仅是资本赌局,更是一份算力军备竞赛的宣战书——试图将内陆省份推上AI基础设施的新前线。八部委联合发布“AI+消费”战略,重塑中国零售业格局中国八大中央部委联合发布政策,加速人工智能在消费领域的深度融合,旨在释放内需潜力并推动产业升级。这标志着AI从后台效率工具向前端消费体验引擎的战略性转变。

常见问题

这次模型发布“AI Cost Crisis: Meta Token Quotas, Cisco FAPO, and the End of Prompt Engineering”的核心内容是什么?

Meta's internal AI operations have hit a wall. In the last quarter alone, the company's various AI teams—ranging from content moderation and recommendation systems to generative AI…

从“How does Meta's token quota system work internally?”看,这个模型发布为什么重要?

The core problem Meta faces is not a lack of compute, but a lack of compute governance. When a single internal team can spin up hundreds of instances of a 70B-parameter model for A/B testing, the token consumption explod…

围绕“What is Cisco FAPO and how does it optimize prompts?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。