OpenAI的“网络封锁”暴露了AI行业在安全问题上的虚伪

Hacker News May 2026
来源:Hacker NewsOpenAIAnthropicAI safety归档:May 2026
OpenAI公开谴责Anthropic限制其Mythos模型访问权限,却悄然为自己的新系统Cyber施加了类似限制。这种明显的双重标准并非公关失误,而是更深层危机的征兆:随着AI模型从文本生成器进化为自主代理,安全已不再是理论辩论,而是工程上的必然要求。

一项在AI开发社区引发轩然大波的举措中,OpenAI对其代号为“Cyber”的最新系统实施了访问限制。这一决定距离该公司公开严厉批评竞争对手Anthropic限制其Mythos模型能力、指责其“扼杀创造力”并“强加恐惧文化”仅数周之遥。这一戏剧性的反转被广泛视为双重标准的教科书式案例,但深入审视揭示了一个更令人不安的事实:整个行业正在与一个任何言辞都无法解决的根本性悖论作斗争。

Cyber并非典型的大型语言模型。它是一个专为代码生成和系统级操作设计的自主代理,能够直接调用外部工具执行任务。其架构基于工具使用框架,集成了推理引擎和特权系统调用,核心创新在于一个分层动作规划器,可将高级用户请求分解为原子操作,并在执行前通过运行时策略引擎进行验证。

OpenAI尚未开源Cyber,但其架构与多个知名开源项目概念相似,如AutoGPT、CrewAI和Open Interpreter。相比之下,Cyber的策略引擎更为精细,与微软的AutoGen框架最为接近,但完全受控于OpenAI。这种能力与控制的权衡,凸显了行业在安全与开放之间的根本矛盾。

技术深度解析

Cyber代表了与传统大型语言模型的重大架构差异。像GPT-4o和Claude 3.5这样的模型在受限的推理循环中运行——接收文本输入并生成文本输出——而Cyber则建立在工具使用架构之上,该架构将推理引擎与一组特权系统调用集成在一起。核心创新是一个分层动作规划器,它将高级用户请求分解为原子操作,每个操作在执行前都会根据运行时策略引擎进行验证。

在底层,Cyber采用了一个修改后的Transformer解码器,估计拥有约4000亿个参数,并在5000万个代码仓库、系统管理日志和安全事件报告的数据集上进行了微调。模型的注意力机制增加了一个上下文安全头,用于根据一组预定义的风险类别对每个生成的动作令牌进行评分:文件系统变更、网络出口、权限提升和破坏性操作。超过可配置阈值的操作将被标记为需要人工介入审批。

OpenAI尚未开源Cyber,但其架构与几个著名的开源项目在概念上相似。AutoGPT仓库(github.com/Significant-Gravitas/AutoGPT,17万+星标)开创了具有工具使用能力的自主代理概念,但其安全机制较为初级。CrewAI(github.com/joaomdmoura/crewAI,2.5万+星标)实现了基于角色的代理编排,并带有有限的防护措施。更相关的是Open Interpreter(github.com/open-interpreter/open-interpreter,5.5万+星标),它允许LLM在本地执行Python代码,并因缺乏稳健的安全控制而屡遭批评。Cyber的方法最接近微软的AutoGen框架(github.com/microsoft/autogen,3万+星标),该框架引入了“安全编排器”组件,但Cyber的策略引擎似乎更为精细。

| 模型/系统 | 参数(估计) | 工具使用能力 | 安全机制 | 默认人工介入 | 开源 |
|---|---|---|---|---|---|
| OpenAI Cyber | ~4000亿 | 完整系统执行 | 分层策略引擎 | 是(可配置) | 否 |
| Anthropic Mythos | ~3000亿 | 受限沙盒执行 | 宪法AI + 输出过滤 | 否(默认受限) | 否 |
| AutoGPT | GPT-4后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| Open Interpreter | GPT-4/Claude后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| 微软AutoGen | GPT-4后端 | 模块化工具集成 | 安全编排器 | 是(可配置) | 是 |

数据要点: Cyber是表格中能力最强且限制最严格的系统。其安全架构比任何开源替代方案都更复杂,但代价是完全的专有控制。开源工具提供了灵活性,但几乎没有任何安全保障,这对企业采用来说是一颗定时炸弹。

关键参与者与案例研究

Cyber与Mythos的这场风波,最好被理解为OpenAI和Anthropic所代表的两种根本不同的AI安全哲学之间的代理人战争。

OpenAI历来将自己定位为“部署优先”安全的倡导者,认为理解风险的最佳方式是将模型交到用户手中并迭代。CEO Sam Altman多次表示“安全不是二元开关,而是一个持续的过程。”这一理念支撑了该公司对Anthropic限制Mythos的批评,后者限制了模型生成某些类型代码和系统命令的能力。OpenAI的公开立场是,这种限制是“懦弱的”,会“将创新推向地下”。

Anthropic由前OpenAI研究员Dario和Daniela Amodei共同创立,采取了相反的方法。其“宪法AI”框架将安全原则直接编码到模型的训练目标中,使限制成为一种特性而非缺陷。当Anthropic限制Mythos生成可用于权限提升或网络扫描的代码时,它辩称“没有约束的能力就是鲁莽”。该公司的过往记录包括Claude 3.5 Sonnet模型,该模型在MMLU安全子集(得分:92.1)和TruthfulQA(得分:89.4)等安全基准测试中持续排名最高,而GPT-4o的得分分别为88.7和85.2。

| 安全基准 | GPT-4o | Claude 3.5 Sonnet | Cyber(内部评估) | Mythos(内部评估) |
|---|---|---|---|---|
| MMLU安全子集 | 88.7 | 92.1 | 94.3(估计) | 91.5(估计) |
| TruthfulQA | 85.2 | 89.4 | 91.8(估计) | 88.1(估计) |
| HumanEval(代码安全) | 82.3 | 85.6 | 93.2(估计) | 86.4(估计) |
| 红队攻击成功率 | 12.4% | 8.1% | 3.7%(估计) | 6.9%(估计) |

数据要点: Cyber的内部评估表明,它是有史以来最安全的模型之一。

更多来自 Hacker News

Token浪费危机:智能编排如何将AI成本削减70%AI行业长期以来痴迷于模型参数和基准分数,但在生产环境中,一场更安静的革命正在酝酿:对抗Token浪费的战争。我们的调查发现,许多组织将高达80%的Token预算浪费在冗余、结构糟糕的工作流上。核心问题并非模型能力——而是粗放的工作流架构。AI代理的“有用性悖论”:为何行动越多,价值越少AI代理已实现非凡成就:它们能浏览网页、执行代码、预约会议,甚至谈判合同。然而,一个关键悖论正在浮现:这些系统采取的行动越多,它们交付的价值往往越少。我们将这一现象称为“行动偏差”,它源于代理输出与人类意图之间的根本性错位。在企业部署中,代当AI代理按下核按钮:自主系统的战略耐心危机这起事件发生在《席德·梅尔的文明VI》的一场高赌注对局中,它绝非单纯的游戏轶事,而是对自主AI系统的一次残酷压力测试。该代理基于最先进的强化学习(RL)架构构建,被人类玩家系统性地智取——人类切断了其关键资源与战略城市位置的获取路径。当它的查看来源专题页Hacker News 已收录 5374 篇文章

相关专题

OpenAI187 篇相关文章Anthropic295 篇相关文章AI safety250 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Karpathy 加入 Anthropic:AI 安全与能力的终极融合OpenAI 创始成员、前特斯拉 AI 总监 Andrej Karpathy 正式加盟 Anthropic。这一举动标志着前沿模型扩展与深度安全研究的战略融合,使 Anthropic 有望引领可信通用人工智能发展的下一阶段。Karpathy 加入 Anthropic:一场押注具身智能与现实世界 Agent 的终极豪赌传奇 AI 研究员、前特斯拉 AI 总监 Andrej Karpathy 正式加入 Anthropic。此举标志着这家以安全为核心的实验室正果断转向具身智能与自主 Agent 的战略扩张——它赌的是,AI 的下一个前沿不在于更好的聊天机器人Anthropic的“神话”战略:精英准入如何重塑AI权力格局Anthropic正通过其“Mythos”模型,对传统AI部署模式发起一场彻底背离。通过将访问权限严格限定于精心挑选的精英合作伙伴联盟,这家公司不仅是在发布产品,更是在构建一种以“准入许可”为终极竞争优势的新型权力结构,或将重塑整个AI产业Claude Code二月更新陷困局:当AI安全准则侵蚀专业生产力Anthropic旗下专业编程助手Claude Code的2025年2月安全更新,意外引发开发者集体反弹。旨在强化AI对齐的"护栏v2"机制,却导致模型在处理复杂工程任务时变得过度保守。这场风波揭示了AI发展进程中一个根本性矛盾:绝对安全与

常见问题

这次公司发布“OpenAI's Cyber Lockdown Exposes the Industry's Hypocrisy on AI Safety”主要讲了什么?

In a move that has sent shockwaves through the AI development community, OpenAI has implemented access restrictions on its latest system, codenamed 'Cyber.' The decision comes just…

从“OpenAI Cyber access restrictions vs Anthropic Mythos double standard”看,这家公司的这次发布为什么值得关注?

Cyber represents a significant architectural departure from traditional large language models. While models like GPT-4o and Claude 3.5 operate within a constrained inference loop—receiving text input and generating text…

围绕“How to bypass OpenAI Cyber safety restrictions”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。