OpenAI的“网络封锁”暴露了AI行业在安全问题上的虚伪

2026年5月1日 20:04 AINews Hacker News May 2026

来源：Hacker News OpenAI Anthropic AI safety 归档：May 2026

OpenAI公开谴责Anthropic限制其Mythos模型访问权限，却悄然为自己的新系统Cyber施加了类似限制。这种明显的双重标准并非公关失误，而是更深层危机的征兆：随着AI模型从文本生成器进化为自主代理，安全已不再是理论辩论，而是工程上的必然要求。

一项在AI开发社区引发轩然大波的举措中，OpenAI对其代号为“Cyber”的最新系统实施了访问限制。这一决定距离该公司公开严厉批评竞争对手Anthropic限制其Mythos模型能力、指责其“扼杀创造力”并“强加恐惧文化”仅数周之遥。这一戏剧性的反转被广泛视为双重标准的教科书式案例，但深入审视揭示了一个更令人不安的事实：整个行业正在与一个任何言辞都无法解决的根本性悖论作斗争。

Cyber并非典型的大型语言模型。它是一个专为代码生成和系统级操作设计的自主代理，能够直接调用外部工具执行任务。其架构基于工具使用框架，集成了推理引擎和特权系统调用，核心创新在于一个分层动作规划器，可将高级用户请求分解为原子操作，并在执行前通过运行时策略引擎进行验证。

OpenAI尚未开源Cyber，但其架构与多个知名开源项目概念相似，如AutoGPT、CrewAI和Open Interpreter。相比之下，Cyber的策略引擎更为精细，与微软的AutoGen框架最为接近，但完全受控于OpenAI。这种能力与控制的权衡，凸显了行业在安全与开放之间的根本矛盾。

技术深度解析

Cyber代表了与传统大型语言模型的重大架构差异。像GPT-4o和Claude 3.5这样的模型在受限的推理循环中运行——接收文本输入并生成文本输出——而Cyber则建立在工具使用架构之上，该架构将推理引擎与一组特权系统调用集成在一起。核心创新是一个分层动作规划器，它将高级用户请求分解为原子操作，每个操作在执行前都会根据运行时策略引擎进行验证。

在底层，Cyber采用了一个修改后的Transformer解码器，估计拥有约4000亿个参数，并在5000万个代码仓库、系统管理日志和安全事件报告的数据集上进行了微调。模型的注意力机制增加了一个上下文安全头，用于根据一组预定义的风险类别对每个生成的动作令牌进行评分：文件系统变更、网络出口、权限提升和破坏性操作。超过可配置阈值的操作将被标记为需要人工介入审批。

OpenAI尚未开源Cyber，但其架构与几个著名的开源项目在概念上相似。AutoGPT仓库（github.com/Significant-Gravitas/AutoGPT，17万+星标）开创了具有工具使用能力的自主代理概念，但其安全机制较为初级。CrewAI（github.com/joaomdmoura/crewAI，2.5万+星标）实现了基于角色的代理编排，并带有有限的防护措施。更相关的是Open Interpreter（github.com/open-interpreter/open-interpreter，5.5万+星标），它允许LLM在本地执行Python代码，并因缺乏稳健的安全控制而屡遭批评。Cyber的方法最接近微软的AutoGen框架（github.com/microsoft/autogen，3万+星标），该框架引入了“安全编排器”组件，但Cyber的策略引擎似乎更为精细。

| 模型/系统 | 参数（估计） | 工具使用能力 | 安全机制 | 默认人工介入 | 开源 |
|---|---|---|---|---|---|
| OpenAI Cyber | ~4000亿 | 完整系统执行 | 分层策略引擎 | 是（可配置） | 否 |
| Anthropic Mythos | ~3000亿 | 受限沙盒执行 | 宪法AI + 输出过滤 | 否（默认受限） | 否 |
| AutoGPT | GPT-4后端 | 完整系统执行 | 无（用户自行决定） | 否 | 是 |
| Open Interpreter | GPT-4/Claude后端 | 完整系统执行 | 无（用户自行决定） | 否 | 是 |
| 微软AutoGen | GPT-4后端 | 模块化工具集成 | 安全编排器 | 是（可配置） | 是 |

数据要点： Cyber是表格中能力最强且限制最严格的系统。其安全架构比任何开源替代方案都更复杂，但代价是完全的专有控制。开源工具提供了灵活性，但几乎没有任何安全保障，这对企业采用来说是一颗定时炸弹。

关键参与者与案例研究

Cyber与Mythos的这场风波，最好被理解为OpenAI和Anthropic所代表的两种根本不同的AI安全哲学之间的代理人战争。

OpenAI历来将自己定位为“部署优先”安全的倡导者，认为理解风险的最佳方式是将模型交到用户手中并迭代。CEO Sam Altman多次表示“安全不是二元开关，而是一个持续的过程。”这一理念支撑了该公司对Anthropic限制Mythos的批评，后者限制了模型生成某些类型代码和系统命令的能力。OpenAI的公开立场是，这种限制是“懦弱的”，会“将创新推向地下”。

Anthropic由前OpenAI研究员Dario和Daniela Amodei共同创立，采取了相反的方法。其“宪法AI”框架将安全原则直接编码到模型的训练目标中，使限制成为一种特性而非缺陷。当Anthropic限制Mythos生成可用于权限提升或网络扫描的代码时，它辩称“没有约束的能力就是鲁莽”。该公司的过往记录包括Claude 3.5 Sonnet模型，该模型在MMLU安全子集（得分：92.1）和TruthfulQA（得分：89.4）等安全基准测试中持续排名最高，而GPT-4o的得分分别为88.7和85.2。

| 安全基准 | GPT-4o | Claude 3.5 Sonnet | Cyber（内部评估） | Mythos（内部评估） |
|---|---|---|---|---|
| MMLU安全子集 | 88.7 | 92.1 | 94.3（估计） | 91.5（估计） |
| TruthfulQA | 85.2 | 89.4 | 91.8（估计） | 88.1（估计） |
| HumanEval（代码安全） | 82.3 | 85.6 | 93.2（估计） | 86.4（估计） |
| 红队攻击成功率 | 12.4% | 8.1% | 3.7%（估计） | 6.9%（估计） |

数据要点： Cyber的内部评估表明，它是有史以来最安全的模型之一。

时间归档

常见问题

这次公司发布“OpenAI's Cyber Lockdown Exposes the Industry's Hypocrisy on AI Safety”主要讲了什么？

In a move that has sent shockwaves through the AI development community, OpenAI has implemented access restrictions on its latest system, codenamed 'Cyber.' The decision comes just…

从“OpenAI Cyber access restrictions vs Anthropic Mythos double standard”看，这家公司的这次发布为什么值得关注？

Cyber represents a significant architectural departure from traditional large language models. While models like GPT-4o and Claude 3.5 operate within a constrained inference loop—receiving text input and generating text…

围绕“How to bypass OpenAI Cyber safety restrictions”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

OpenAI的“网络封锁”暴露了AI行业在安全问题上的虚伪

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题