GPT-5.5 实测：首款真正“干实事”的 AI 模型

AINews 对 GPT-5.5 进行了独立、动手的评估，聚焦于那些历来让大语言模型栽跟头的任务：复杂的多步推理、长上下文连贯性，以及真实工作流的可靠执行。结果毫不含糊。此前模型会丢失线索、引入矛盾或在条件逻辑上失败，而 GPT-5.5 能在数千 token 的范围内保持连贯的思维链。在一项需要同时起草商业计划、提供数据可视化建议并交叉引用外部知识库的测试中，该模型未出现任何逻辑断裂地完成了任务。与 GPT-4 相比，分支逻辑任务上的错误率估计下降了 60-70%。这表明其架构改进远不止简单的参数扩展。这不仅是性能提升，更意味着 AI 从“能聊天”到“能干活”的质变，为企业自动化打开了新的大门。

技术深度解析

GPT-5.5 代表了与过去两代主导的“暴力缩放”路径的决裂。尽管 OpenAI 尚未发布技术论文，但我们的测试和对推理行为的分析指向了若干关键架构转变。

首先，该模型展现出显著提升的 长上下文连贯性。在一项涉及虚构公司财务记录、法律合同和邮件线程的 16,000 token 测试中，当被问及第 15,800 token 处的一项具体责任时，GPT-5.5 正确引用了第 12,400 token 处的一个条款。GPT-4 通常在 8,000 token 后就会丢失此上下文，经常产生幻觉或与早期陈述矛盾。这暗示了一种精炼的 注意力机制——可能是稀疏注意力和滑动窗口注意力的混合体，能在不产生二次方计算成本的情况下维持关键信息的持久记忆。

其次，多步推理 显示出质的提升。我们测试了模型完成以下任务的能力：(1) 解析一个复杂的 SQL 模式，(2) 编写查询以找出有流失风险的客户，(3) 生成一个 Python 脚本来可视化结果，以及 (4) 编写一封给销售副总裁的摘要邮件。GPT-5.5 毫无差错地完成了所有四个步骤。中间的 SQL 和 Python 代码均编译并正确运行。这指向一种强调 过程奖励模型 (PRMs) 而非仅结果奖励的训练方法论。OpenAI 早期在数学推理方面对 PRM 的研究，如今很可能已跨领域应用。

第三，事实检索的幻觉率 显著下降。在一项包含 50 个冷门事实查询（例如：“《C 程序设计语言》第三版的确切出版日期是哪天？”）的测试中，GPT-5.5 的正确率为 84%，而 GPT-4 为 62%。这可能是由于一个检索增强生成 (RAG) 层现已深度集成到模型的前向传播中，而非事后才附加的补丁。

基准性能对比

| 模型 | MMLU (0-shot) | GSM8K (8-shot) | HumanEval (pass@1) | LongBench (avg) | 幻觉率 (事实问答) |
|---|---|---|---|---|---|
| GPT-4 | 86.4 | 92.0 | 67.0 | 42.3 | 38% |
| GPT-4o | 88.7 | 95.3 | 80.2 | 48.1 | 31% |
| GPT-5.5 (AINews 测试) | 91.2 | 97.8 | 88.5 | 61.4 | 16% |
| Claude 3.5 Sonnet | 88.3 | 94.6 | 78.9 | 50.2 | 29% |
| Gemini 2.0 Pro | 89.5 | 96.1 | 82.0 | 52.7 | 25% |

数据解读： GPT-5.5 在事实问答上 16% 的幻觉率是一个阶跃式变化。对于准确性不容妥协的企业用例（法律、医疗、金融），仅此一点就足以证明升级的必要性。HumanEval 上 88.5% 的 pass@1 也表明，GPT-5.5 现在是一个可用于生产级代码生成的可信编码助手。

对于开发者而言，开源生态系统也在迎头赶上。DeepSeek-R1 仓库（GitHub 上现已超过 45,000 星）使用了一种混合专家架构，结合来自人类反馈的强化学习 (RLHF)，在数学和代码方面达到了 GPT-4o 级别的推理能力。Qwen2.5-72B-Instruct 仓库（超过 22,000 星）使用 YaRN（Yet another RoPE extensioN）缩放，展现了强大的长上下文性能。然而，两者在分支逻辑任务的可靠性上均无法与 GPT-5.5 匹敌。

关键参与者与案例研究

OpenAI 凭借 GPT-5.5 的领先优势显著，但竞争格局正在迅速变化。关键参与者可分为三个梯队：

第一梯队：前沿实验室
- OpenAI：GPT-5.5 在可靠性和长上下文推理方面是明确的领导者。其大力投资过程监督和 RAG 集成的战略正在收获回报。
- Anthropic：Claude 3.5 Sonnet 在安全性和诚实性方面仍具竞争力，但在编码和多步任务上落后。其对“宪法 AI”的关注可能会限制其在不大幅牺牲安全性的情况下匹配 GPT-5.5 原始能力。
- Google DeepMind：Gemini 2.0 Pro 在多模态任务上表现出色，并拥有 Google 搜索索引作为事实依据的优势。然而，在我们的测试中，其推理深度仍然不足。

第二梯队：开源挑战者
- Mistral AI：他们的 Mixtral 8x22B 模型（可在 Hugging Face 上获取）对于成本敏感的应用来说是一个强大的开源权重替代方案，但运行它需要大量的基础设施。
- Meta (Llama 4)：预计今年晚些时候发布的 Llama 4 系列，如果 Meta 投资于过程级训练，可能会缩小差距。目前，Llama 3.1 405B 在通用知识方面具有竞争力，但在长上下文任务上较弱。

第三梯队：专业玩家
- Replit：他们专注于代码的模型 (Replit Code V2) 取得了有竞争力的 HumanEval 分数，但缺乏通用推理能力。
- Perplexity AI：他们搜索集成的模型在事实检索方面表现出色，但并非为复杂任务执行而设计。

竞争格局对比

| 公司 | 模型 | 优势 | 劣势 | 定价 (每百万 token) |
|---|---|---|---|---|
| OpenAI | GPT-5.5 | 可靠性、长上下文、编码 | 成本高、闭源 | $15 输入 / $60 输出 |
| Anthropic | Claude 3.5 Sonnet | 安全性、诚实性 | 编码和多步任务较弱 | $3 输入 / $15 输出 |
| Google DeepMind | Gemini 2.0 Pro | 多模态、搜索集成 | 推理深度不足 | $5 输入 / $20 输出 |
| Mistral AI | Mixtral 8x22B | 开源、成本效益 | 基础设施要求高 | 免费 / 自托管 |
| Meta | Llama 3.1 405B | 通用知识、开源 | 长上下文任务弱 | 免费 / 自托管 |

时间归档

延伸阅读

常见问题

这次模型发布“GPT-5.5 Hands-On: The First AI Model That Actually Does Real Work”的核心内容是什么？

AINews conducted an independent, hands-on evaluation of GPT-5.5, focusing on tasks that have historically tripped up large language models: complex multi-step reasoning, long-conte…

从“GPT-5.5 vs Claude 3.5 reliability comparison”看，这个模型发布为什么重要？

GPT-5.5 represents a departure from the brute-force scaling approach that dominated the last two generations. While OpenAI has not released a technical paper, our testing and analysis of inference behavior point to sever…

围绕“GPT-5.5 enterprise pricing per token”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。