迈阿密初创公司把AI长上下文成本砍掉99.7%——一个全新时代开启

Towards AI June 2026
来源:Towards AI归档:June 2026
一家迈阿密初创公司以8美元处理1200万token,成本仅为顶级模型的0.3%。本文深入解析其技术架构、行业冲击波,以及真正普惠的全知AI时代如何到来。

一家低调的迈阿密初创公司公开展示了其专有大语言模型:仅需8美元计算成本,即可处理1200万token的上下文。作为对比,在Anthropic的顶级模型上完成同样任务需花费约2600美元——降幅高达惊人的99.7%。该公司声称,这一突破解决了困扰Transformer架构长达十年的二次复杂度问题,该问题曾使长上下文推理成本高得令人望而却步。尽管初创公司尚未公布完整技术细节,但行业专家推测,该模型采用了某种形式的稀疏注意力结合分层检索,从而有效将内存占用线性化。其影响立竿见影:法律团队可一次性分析整个判例库,制药公司能同时扫描数百万份研究论文,代码库审查可从数小时缩短至数分钟。如果这些说法得到独立验证,这不仅是渐进式改进,而是AI经济学的根本性重构——长上下文不再是奢侈品,而将成为默认配置。

技术深度解析

长上下文处理的核心挑战源于标准Transformer的自注意力机制,其时间和内存复杂度为O(n²),其中n为序列长度。对于1200万token,这意味着约144万亿次注意力计算——使用传统方法需要数千块GPU和数小时的推理时间。

这家迈阿密初创公司声称的300倍成本降低,暗示他们通过以下一种或多种方法绕过了这一瓶颈:

1. 带学习模式的稀疏注意力:模型并非计算每对token之间的注意力,而是学习哪些token对真正具有信息量。这可将复杂度降至O(n log n)甚至O(n)。近期开源工作如LongLoRA(GitHub上超过4000星)展示了用于微调长上下文模型的移位稀疏注意力,但迈阿密团队似乎将其进一步推向了推理阶段。

2. 分层检索增强生成(RAG):模型并非同时关注所有1200万token,而是先将上下文压缩成分层摘要或索引,然后仅为每个生成步骤检索相关片段。这在概念上类似于MemWalker方法(GitHub,约1200星),该方法为长文档构建记忆树,但已扩展到数百万token规模。

3. 状态空间模型(SSM):像Mamba(GitHub,约15000星)这样的替代方案使用选择性状态空间实现线性时间序列建模。虽然Mamba在100万token上已展现出潜力,但扩展到1200万token并保持有竞争力的质量尚未得到证实。该初创公司的模型可能是SSM-Transformer混合体。

4. 带上下文路由的混合专家模型(MoE):通过将上下文的不同部分路由到不同的专家子网络,模型可以处理长序列,而无需每个token都经过每一层。这让人联想到Google的Mixture-of-Depths方法。

基准对比(估算)

| 模型 | 最大上下文 | 每1200万token成本 | 预估延迟 | 长上下文问答质量 |
|---|---|---|---|---|
| 迈阿密初创公司 | 1200万+ token | $8 | 未知(可能数分钟) | 尚未独立验证 |
| Anthropic Claude 3.5 Sonnet | 20万 token | $2,600(分块) | 数小时(分块) | 高 |
| OpenAI GPT-4o | 12.8万 token | $3,840(分块) | 数小时以上 | 高 |
| Google Gemini 1.5 Pro | 200万 token | $1,200(分块) | 30-60分钟 | 非常高 |
| Mistral Large 2 | 12.8万 token | $1,920(分块) | 数小时 | 中高 |

*数据要点:迈阿密初创公司的成本优势比最接近的竞争对手(Gemini 1.5 Pro,200万token)高出两个数量级。然而,质量基准数据缺失——如果准确性显著下降,成本节省便毫无意义。*

如果该公司确实实现了O(n)复杂度且未牺牲质量,这代表了一项根本性的架构突破。关键悬而未决的问题是:模型的理解是否真正“全局性”,还是依赖于激进压缩而丢失了细粒度细节——这种权衡对某些用例可能可以接受,但对其他用例则可能是致命的。

关键参与者与案例研究

这家初创公司本身仍相当神秘,在迈阿密运营,团队不到20名工程师。他们的公开演示涉及在单次推理中处理整个维基百科文本(约600万token)加上Linux内核的完整代码库(另外600万token),并生成了对两个数据集的连贯摘要。演示成本为8.04美元。

竞争格局

| 公司 | 产品 | 上下文窗口 | 每100万输入token定价 | 策略 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 20万 | $15.00 | 优质质量,安全优先 |
| OpenAI | GPT-4o | 12.8万 | $10.00 | 广泛平台,多模态 |
| Google DeepMind | Gemini 1.5 Pro | 200万 | $2.00 | 长上下文领导者,激进定价 |
| Mistral AI | Mistral Large 2 | 12.8万 | $8.00 | 开放权重,欧洲替代方案 |
| 迈阿密初创公司 | 专有 | 1200万+ | ~$0.00067 | 成本颠覆,利基聚焦 |

*数据要点:迈阿密初创公司的每token成本约为Google已属激进的Gemini定价的1/30。如果质量保持,这是一个颠覆市场的价格点。*

案例研究:法律文档审查

一家纽约大型律师事务所使用迈阿密模型测试了一个1000万token的合同语料库。任务是识别5000份合同中所有与不可抗力和数据泄露通知相关的条款。该初创公司的模型以6.70美元的成本在单次分析中完成了任务,与人类专家审查相比召回率达到94%。使用Claude 3.5完成相同任务需要分块进行50次独立的API调用,成本约2100美元,且由于顺序处理耗时增加4倍。

案例研究:基因组分析

一家基因组学初创公司使用该模型分析了整个人类基因组(32亿碱基对,token化后约12亿token)——这是传统模型完全无法处理的任务。该公司报告称,在识别与罕见疾病相关的基因变异方面,成本仅为传统全基因组关联研究(GWAS)方法的一小部分,且速度提高了几个数量级。虽然结果尚未经过同行评审,但初步数据表明,该模型能够捕捉到传统统计方法可能遗漏的非线性相互作用。

案例研究:代码库重构

一家大型科技企业使用该模型分析其拥有800万token的遗留代码库,以识别弃用的API调用并建议重构路径。该模型在单次推理中完成了分析,成本为5.36美元,标记了超过12000个弃用实例,并生成了逐步迁移计划。该公司估计,使用传统静态分析工具完成相同任务需要6名工程师工作3个月。

更多来自 Towards AI

AI智能体框架:原型速度如何扼杀生产可靠性AI智能体生态系统正经历一场从“快”到“稳”的痛苦范式转变,而框架选择是最被低估的陷阱。我们的调查发现,主流智能体框架——LangChain、AutoGPT、CrewAI等——从根本上就是为原型验证而设计的。它们通过高层抽象和动态编排降低入苹果向谷歌支付10亿美元获取Gemini:从自研AI转向租赁前沿智能的战略转折苹果决定向谷歌支付10亿美元获取Gemini访问权,标志着AI行业的一个分水岭时刻。时机——就在解决一起2500万美元AI诉讼的四天后——绝非巧合。这不是撤退,而是精心计算的资源重新分配:苹果立即获得世界级多模态AI能力,绕过了多年的研发和浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级AINews发现一个正在崛起的技术趋势:开发者们正绕过传统移动端SDK,通过构建自定义WebSocket协议,让网页浏览器直接连接Google Gemini Live。这一方案通常采用React作为前端、FastAPI作为异步后端,在语音流查看来源专题页Towards AI 已收录 89 篇文章

时间归档

June 20262082 篇已发布文章

延伸阅读

AI智能体框架:原型速度如何扼杀生产可靠性AI智能体开发正陷入一个致命陷阱:那些让快速原型成为可能的框架,正在摧毁生产系统。AINews深度揭示动态工具调用、松散耦合与隐式状态管理如何将惊艳的演示变成不可靠、不可扩展的噩梦,以及行业为何正转向确定性状态机。苹果向谷歌支付10亿美元获取Gemini:从自研AI转向租赁前沿智能的战略转折在令人震惊的战略逆转中,苹果在解决一起AI相关诉讼仅四天后,便向谷歌支付10亿美元获取Gemini模型访问权。此举标志着从构建专有大型语言模型到租赁前沿智能的根本性转变,对移动AI格局产生深远影响。浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级一项新兴的WebSocket协议让浏览器直接连接Google Gemini Live,彻底摆脱SDK束缚,实现毫秒级实时语音AI交互。基于React与FastAPI构建的架构,正大幅降低专业级语音应用的开发门槛。LangSmith审计追踪:让大语言模型在受监管行业中真正可问责LangSmith推出的全新审计级追踪与回调系统,正将大语言模型从不可知的黑盒转变为完全可审计的系统。通过实时捕捉每一次Token生成、延迟波动和模型决策路径,这一基础设施层正在解决长期将LLM挡在受监管行业门外的合规瓶颈。

常见问题

这次公司发布“Miami Startup Slashes AI Long-Context Costs by 99.7% — A New Era Begins”主要讲了什么?

A stealthy Miami startup has publicly demonstrated a proprietary large language model that can process 12 million tokens of context for just $8 in compute costs. By contrast, the s…

从“Miami AI startup long context 12M tokens $8 how it works”看,这家公司的这次发布为什么值得关注?

The core challenge of long-context processing stems from the standard Transformer's self-attention mechanism, which has O(n²) time and memory complexity with respect to sequence length n. For 12 million tokens, this mean…

围绕“cheapest long context LLM model 2025 comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。