技术深潜
Opus 4.8与GPT-5.5的参数保密,是行业直面原始缩放定律极限的直接后果。正如Kaplan等人在2020年首次阐述的那样,缩放定律认为模型性能会随参数、数据和计算量的增加而可预测地提升。然而,近期的研究——包括DeepMind的Chinchilla缩放定律——已经表明,许多模型在过少的token上过度训练,而最优性能往往需要更少的参数配合更多的数据。
架构分野
Anthropic的Opus 4.8似乎在深度上加倍下注。该模型被认为采用了显著更深的Transformer堆栈——可能超过120层,而GPT-5.5估计为96层。这种深度优先的方法旨在改善多跳推理,即模型必须将多个逻辑步骤串联起来。Anthropic在“宪法AI”方面的研究,以及其在可解释性方面的工作(包括最近关于“Scaling Monosemanticity”的论文),表明他们优先考虑的是不仅强大、而且更易理解和对齐的模型。
相比之下,OpenAI的GPT-5.5似乎更倾向于宽度和效率。该模型很可能采用了混合专家(MoE)架构,类似于GPT-4传闻中使用的架构。MoE允许模型针对任何给定token仅激活其参数的一个子集,从而大幅降低推理成本。OpenAI最近的专利申请以及对稀疏注意力机制的招聘都支持这一判断。其结果是一个总参数数量据传高达1.8万亿、但每次前向传播仅激活2800亿参数的模型。
基准测试表现:新现实
| 模型 | 估计总参数 | 活跃参数 | MMLU得分 | HumanEval(代码) | 推理成本(每百万token) |
|---|---|---|---|---|---|
| Opus 4.8 | ~8000亿(估) | ~8000亿(密集) | 89.2 | 88.5% | $8.00 |
| GPT-5.5 | ~1.8万亿(估) | ~2800亿(MoE) | 89.8 | 91.2% | $3.50 |
| GPT-4o | ~2000亿(估) | ~2000亿(密集) | 88.7 | 87.1% | $5.00 |
| Claude 3 Opus | ~5000亿(估) | ~5000亿(密集) | 87.9 | 84.6% | $15.00 |
数据要点: 这张表揭示了一个关键的转折点。GPT-5.5在得分上略高于Opus 4.8,但运行成本却不到后者的一半。这就是效率红利的实际体现。单纯增加参数的时代已经结束;胜者将是那些能以最低成本交付最多能力的玩家。
开源镜像
值得注意的是,开源社区已经证明了更小、更高效模型的可行性。Mixtral 8x22B模型(仓库:mistralai/Mixtral-8x22B,390亿活跃参数,1410亿总参数)以极低的成本实现了GPT-3.5级别的性能。最近,微软的Phi-3系列(仓库:microsoft/Phi-3-mini,38亿参数)更是以小博大,在MMLU上取得了69%的得分——与规模大10倍的模型相当。这些项目每周在GitHub上获得数千颗星,并已被Perplexity和Replit等公司部署到生产环境中。
关键玩家与案例研究
Anthropic:安全优先之路
由Dario Amodei领导的Anthropic,其声誉建立在构建不仅能力强、而且可解释且对齐的模型之上。他们拒绝披露Opus 4.8的参数数量,部分原因是战略性的:他们希望市场根据输出质量和安全性来评判模型,而不是根据一个可以被操纵的数字。他们最近聘请了以机械可解释性闻名的Chris Olah(前OpenAI研究员),进一步强调了这一承诺。然而,这种方法也有缺点:Opus 4.8的运行成本更高,这限制了它对成本敏感型应用的吸引力。
OpenAI:规模与效率机器
在Sam Altman的领导下,OpenAI采取了双轨策略。一方面,他们继续通过GPT-5.5等大规模模型推动前沿;另一方面,他们也在积极优化推理效率。最近推出的GPT-4o mini(一个更小、更便宜的模型)以及结构化输出的引入,表明他们正在考虑大规模部署。GPT-5.5的MoE架构直接押注于未来属于那些能够低成本服务的模型。
第三竞争者:Google DeepMind
预计今年晚些时候发布的Google DeepMind Gemini Ultra 2.0,据传将采用一种新颖的“混合深度”方法,将深层推理层与浅层快速层相结合。如果成功,这可能会提供两全其美的方案。Google的优势在于其庞大的TPU基础设施以及来自搜索和YouTube的内部数据飞轮。
| 公司 | 模型策略 | 关键创新 | 估计训练成本 | 部署成本(每百万token) |
|---|---|---|---|---|
| Anthropic | 深度优先,密集 | 宪法AI,可解释性 | $2亿 | $8.00 |
| OpenAI | 宽度优先,MoE | 稀疏注意力,高效推理 | $5亿 | $3.50 |
| Google DeepMind | 混合深度 | 混合深度,TPU优化 | $3亿 | $4.00(估) |