OpenAI沉默坟场探秘：那些从未见光的野心项目与交易

OpenAI的公众叙事是不断突破的传奇，但内部文件与行业信源揭示了一条并行的战略放弃轨迹。该机构内部维持着一个被知情者称为‘项目坟场’的集合——其中收录了曾被原型化、提案甚至部分开发，最终却被搁置的雄心勃勃的计划。这包括未能实现规模化的特定行业企业级定制模型、被认为过于不可靠而无法投入生产的自主智能体框架，以及因延迟和成本过高而被证明不可行的多模态应用。

这座坟场的存在并非失败的标志，而是在前沿领域运作的必要特征。训练如GPT-4及更先进的最先进模型，需要以数十万乃至数百万美元计的计算资源，这使得资源分配成为零和博弈。每一次对‘登月项目’（如GPT-5或Q*）的投入，都意味着对数十个其他潜在项目的剥夺。内部，一个由Sam Altman、Ilya Sutskever（在其离职前）及关键技术负责人组成的战略对齐委员会，每季度进行一次‘修剪’会议，根据一个残酷的二元标准评估项目：该项目是直接推动AGI（通用人工智能）的‘登月计划’，还是能产生可预测收入的‘商业引擎’？无法明确归入这两类的项目——无论其技术多么巧妙——都会被终止。

这种严格的优先级排序反映了OpenAI身份的根本紧张关系：它既是一家需要盈利以资助研究的‘有限营利’公司，又是一个肩负着创造安全AGI使命的研究实验室。坟场中的项目往往是这种紧张关系的牺牲品。例如，一个为医疗诊断定制的行业特定模型项目‘Atlas’，在试验中显示出前景，但因维护成本、数据隐私责任和惊人的计算需求而被放弃。同样，一个旨在让开发者在OpenAI模型之上构建和货币化应用的‘企业应用商店’计划也被悄悄取消，因为担心会分散核心模型路线图的注意力，并将公司定位为低利润率的平台工具。

这些被放弃的道路揭示了OpenAI的战略赌注：它相信，拥有基础智能本身，最终比拥有应用的分发渠道或垂直行业解决方案更有价值。这与Anthropic（追求Claude针对特定企业工作流的垂直整合）和Microsoft（在其整个产品套件中积极构建Copilot）的策略形成鲜明对比。OpenAI的坟场因此成为其单一专注点的地图——也是其资源有限性的证明。

技术深度解析

栖身于OpenAI坟场的项目，通常具有共同的技术架构，这些架构虽然创新，却暴露了当前AI技术栈的根本局限。一个重要类别涉及复杂的多步骤推理智能体。这些并非简单的聊天界面，而是旨在通过串联多个LLM调用、代码执行和工具使用，来执行长远视野任务（如自主研究一个主题、撰写报告、创建支持图表并将其通过邮件发送给列表）的系统。其内部代号为‘Cascade’的原型，在GPT-4之上使用了分层规划模型。然而，它始终无法通过可靠性基准测试；一个20步的任务可能只有65%的成功率，且失败常常是灾难性和不透明的。数十次顺序LLM调用产生的累积延迟使得实时交互成为不可能，而每项任务的成本比人类执行相同工作高出数个数量级。

另一个技术坟场则堆满了专业化的多模态模型。OpenAI曾演示过能够同时摄取视频、音频和密集文档（如100页PDF）并进行推理的早期原型。其架构涉及为每种模态使用独立的编码器，然后融合到一个庞大的Transformer中。瓶颈不在于能力，而在于推理经济性。为上下文查询处理一段10分钟的视频，可能需要数分钟的GPU时间，且规模化后每次查询成本超过50美元，这使得商业应用不可行。开源社区也面临着同样的挑战。像`gorilla-llm/gorilla`（一个用于API调用的LLM）和`microsoft/JARVIS`（HuggingGPT，一个将LLM与AI模型连接的系统）这样的项目探索着类似的智能体概念，但同样受困于延迟、成本和错误传播问题。

| 项目类型 | 核心技术障碍 | 基准测试失败点 | 预估推理成本（规模化） |
|---|---|---|---|
| 长远视野智能体（如‘Cascade’） | 链式调用中的错误累积 | <70% 任务完成可靠性 | 每项复杂任务 10-100+ 美元 |
| 深度多模态分析 | 计算强度高 | 视频查询延迟 >30 秒 | 每10分钟视频分析 50+ 美元 |
| 垂直领域精调模型 | 狭窄的效用 vs. 成本 | 与GPT-4 API相比投资回报率为负 | 基础模型成本的2-5倍，仅获得边际收益 |
| 本地部署企业模型 | 基础设施/安全开销大 | 无法匹配云端模型的更新速度 | 运营总成本（TCO）的3倍 |

数据启示： 上表揭示，搁置决策主要由三个汇聚因素驱动：成功率低于70%的不可靠性、交互使用延迟超过30秒，以及推理成本是可行价格点的数倍。项目失败于这些指标的交汇点，而非缺乏技术新颖性。

关键参与者与案例研究

在内部，坟场由一个战略对齐委员会通过严格的审查流程管理，该委员会由Sam Altman、Ilya Sutskever（在其离职前）和关键技术负责人组成。他们的职责是依据AGI登月计划 vs. 商业引擎这一二分法，无情地评估项目。一个令人深思的案例是Project Atlas，这是一套为医疗保健诊断提出的行业特定模型套件。Atlas与一家大型医院网络合作开发，能够分析医学影像、患者病史和研究论文。在试验中显示出有希望的准确性。然而，该模型需要在敏感且孤立的数据上持续进行微调，造成了维护噩梦。为数千个医院特定实例提供服务的计算成本是天文数字，且责任风险巨大。该项目被搁置，转而推进像GPT-4这样的模型的通用能力，这些模型可由第三方适配，而无需OpenAI拥有垂直技术栈。

另一条被放弃的道路是OpenAI企业应用商店。早期计划设想了一个平台，开发者可以在其上发布基于OpenAI模型精调版本或在其API上构建的智能体应用并实现货币化。这一计划被悄然取消。根据前员工的透露，其战略理由有二：一是会创建一个分散的生态系统，干扰核心模型路线图；二是会将OpenAI定位为平台工具，而非智能本身的创造者——这是一个利润率更低、竞争更激烈的业务。这与Anthropic的策略形成鲜明对比，后者正通过Claude针对特定企业工作流追求更垂直整合的路径，也与Microsoft的策略不同，后者正积极在其整个产品套件中构建Copilot。OpenAI搁置应用商店概念，标志着其押注于拥有基础智能本身最终比拥有应用的分发渠道更有价值。

| 公司 | 核心产品策略 | 对‘坟场’项目的处理方式 | 关键差异化点 |
|---|---|---|---|
| OpenAI | 基础AGI模型即服务 | 严格修剪，专注核心AGI与规模化API | 押注基础模型智能的终极价值 |
| Anthropic | 针对企业工作流的垂直整合 | 更渐进，允许特定垂直领域试点 | Claude深度集成至特定工作流 |
| Microsoft | 全线产品Copilot化 | 广泛实验，通过现有分销渠道规模化成功项目 | 拥有企业分销与现有软件栈 |

时间归档

延伸阅读

常见问题

这次公司发布“Inside OpenAI's Silent Graveyard: The Ambitious Projects and Deals That Never Saw Daylight”主要讲了什么？

OpenAI's public narrative is one of relentless breakthrough, but internal documents and industry sources reveal a parallel track of strategic abandonment. The organization maintain…

从“OpenAI abandoned projects list”看，这家公司的这次发布为什么值得关注？

The projects inhabiting OpenAI's graveyard often share common technical architectures that, while innovative, exposed fundamental limitations in today's AI stack. A significant category involves complex, multi-step reaso…

围绕“why did OpenAI cancel enterprise deals”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。