迈阿密初创公司把AI长上下文成本砍掉99.7%——一个全新时代开启

一家低调的迈阿密初创公司公开展示了其专有大语言模型：仅需8美元计算成本，即可处理1200万token的上下文。作为对比，在Anthropic的顶级模型上完成同样任务需花费约2600美元——降幅高达惊人的99.7%。该公司声称，这一突破解决了困扰Transformer架构长达十年的二次复杂度问题，该问题曾使长上下文推理成本高得令人望而却步。尽管初创公司尚未公布完整技术细节，但行业专家推测，该模型采用了某种形式的稀疏注意力结合分层检索，从而有效将内存占用线性化。其影响立竿见影：法律团队可一次性分析整个判例库，制药公司能同时扫描数百万份研究论文，代码库审查可从数小时缩短至数分钟。如果这些说法得到独立验证，这不仅是渐进式改进，而是AI经济学的根本性重构——长上下文不再是奢侈品，而将成为默认配置。

技术深度解析

长上下文处理的核心挑战源于标准Transformer的自注意力机制，其时间和内存复杂度为O(n²)，其中n为序列长度。对于1200万token，这意味着约144万亿次注意力计算——使用传统方法需要数千块GPU和数小时的推理时间。

这家迈阿密初创公司声称的300倍成本降低，暗示他们通过以下一种或多种方法绕过了这一瓶颈：

1. 带学习模式的稀疏注意力：模型并非计算每对token之间的注意力，而是学习哪些token对真正具有信息量。这可将复杂度降至O(n log n)甚至O(n)。近期开源工作如LongLoRA（GitHub上超过4000星）展示了用于微调长上下文模型的移位稀疏注意力，但迈阿密团队似乎将其进一步推向了推理阶段。

2. 分层检索增强生成（RAG）：模型并非同时关注所有1200万token，而是先将上下文压缩成分层摘要或索引，然后仅为每个生成步骤检索相关片段。这在概念上类似于MemWalker方法（GitHub，约1200星），该方法为长文档构建记忆树，但已扩展到数百万token规模。

3. 状态空间模型（SSM）：像Mamba（GitHub，约15000星）这样的替代方案使用选择性状态空间实现线性时间序列建模。虽然Mamba在100万token上已展现出潜力，但扩展到1200万token并保持有竞争力的质量尚未得到证实。该初创公司的模型可能是SSM-Transformer混合体。

4. 带上下文路由的混合专家模型（MoE）：通过将上下文的不同部分路由到不同的专家子网络，模型可以处理长序列，而无需每个token都经过每一层。这让人联想到Google的Mixture-of-Depths方法。

基准对比（估算）

| 模型 | 最大上下文 | 每1200万token成本 | 预估延迟 | 长上下文问答质量 |
|---|---|---|---|---|
| 迈阿密初创公司 | 1200万+ token | $8 | 未知（可能数分钟） | 尚未独立验证 |
| Anthropic Claude 3.5 Sonnet | 20万 token | $2,600（分块） | 数小时（分块） | 高 |
| OpenAI GPT-4o | 12.8万 token | $3,840（分块） | 数小时以上 | 高 |
| Google Gemini 1.5 Pro | 200万 token | $1,200（分块） | 30-60分钟 | 非常高 |
| Mistral Large 2 | 12.8万 token | $1,920（分块） | 数小时 | 中高 |

*数据要点：迈阿密初创公司的成本优势比最接近的竞争对手（Gemini 1.5 Pro，200万token）高出两个数量级。然而，质量基准数据缺失——如果准确性显著下降，成本节省便毫无意义。*

如果该公司确实实现了O(n)复杂度且未牺牲质量，这代表了一项根本性的架构突破。关键悬而未决的问题是：模型的理解是否真正“全局性”，还是依赖于激进压缩而丢失了细粒度细节——这种权衡对某些用例可能可以接受，但对其他用例则可能是致命的。

关键参与者与案例研究

这家初创公司本身仍相当神秘，在迈阿密运营，团队不到20名工程师。他们的公开演示涉及在单次推理中处理整个维基百科文本（约600万token）加上Linux内核的完整代码库（另外600万token），并生成了对两个数据集的连贯摘要。演示成本为8.04美元。

竞争格局

| 公司 | 产品 | 上下文窗口 | 每100万输入token定价 | 策略 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 20万 | $15.00 | 优质质量，安全优先 |
| OpenAI | GPT-4o | 12.8万 | $10.00 | 广泛平台，多模态 |
| Google DeepMind | Gemini 1.5 Pro | 200万 | $2.00 | 长上下文领导者，激进定价 |
| Mistral AI | Mistral Large 2 | 12.8万 | $8.00 | 开放权重，欧洲替代方案 |
| 迈阿密初创公司 | 专有 | 1200万+ | ~$0.00067 | 成本颠覆，利基聚焦 |

*数据要点：迈阿密初创公司的每token成本约为Google已属激进的Gemini定价的1/30。如果质量保持，这是一个颠覆市场的价格点。*

案例研究：法律文档审查

一家纽约大型律师事务所使用迈阿密模型测试了一个1000万token的合同语料库。任务是识别5000份合同中所有与不可抗力和数据泄露通知相关的条款。该初创公司的模型以6.70美元的成本在单次分析中完成了任务，与人类专家审查相比召回率达到94%。使用Claude 3.5完成相同任务需要分块进行50次独立的API调用，成本约2100美元，且由于顺序处理耗时增加4倍。

案例研究：基因组分析

一家基因组学初创公司使用该模型分析了整个人类基因组（32亿碱基对，token化后约12亿token）——这是传统模型完全无法处理的任务。该公司报告称，在识别与罕见疾病相关的基因变异方面，成本仅为传统全基因组关联研究（GWAS）方法的一小部分，且速度提高了几个数量级。虽然结果尚未经过同行评审，但初步数据表明，该模型能够捕捉到传统统计方法可能遗漏的非线性相互作用。

案例研究：代码库重构

一家大型科技企业使用该模型分析其拥有800万token的遗留代码库，以识别弃用的API调用并建议重构路径。该模型在单次推理中完成了分析，成本为5.36美元，标记了超过12000个弃用实例，并生成了逐步迁移计划。该公司估计，使用传统静态分析工具完成相同任务需要6名工程师工作3个月。

时间归档

延伸阅读

常见问题

这次公司发布“Miami Startup Slashes AI Long-Context Costs by 99.7% — A New Era Begins”主要讲了什么？

A stealthy Miami startup has publicly demonstrated a proprietary large language model that can process 12 million tokens of context for just $8 in compute costs. By contrast, the s…

从“Miami AI startup long context 12M tokens $8 how it works”看，这家公司的这次发布为什么值得关注？

The core challenge of long-context processing stems from the standard Transformer's self-attention mechanism, which has O(n²) time and memory complexity with respect to sequence length n. For 12 million tokens, this mean…

围绕“cheapest long context LLM model 2025 comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。