OpenAI的“网络封锁”暴露了AI行业在安全问题上的虚伪

Hacker News May 2026
来源:Hacker NewsOpenAIAnthropicAI safety归档:May 2026
OpenAI公开谴责Anthropic限制其Mythos模型访问权限,却悄然为自己的新系统Cyber施加了类似限制。这种明显的双重标准并非公关失误,而是更深层危机的征兆:随着AI模型从文本生成器进化为自主代理,安全已不再是理论辩论,而是工程上的必然要求。

一项在AI开发社区引发轩然大波的举措中,OpenAI对其代号为“Cyber”的最新系统实施了访问限制。这一决定距离该公司公开严厉批评竞争对手Anthropic限制其Mythos模型能力、指责其“扼杀创造力”并“强加恐惧文化”仅数周之遥。这一戏剧性的反转被广泛视为双重标准的教科书式案例,但深入审视揭示了一个更令人不安的事实:整个行业正在与一个任何言辞都无法解决的根本性悖论作斗争。

Cyber并非典型的大型语言模型。它是一个专为代码生成和系统级操作设计的自主代理,能够直接调用外部工具执行任务。其架构基于工具使用框架,集成了推理引擎和特权系统调用,核心创新在于一个分层动作规划器,可将高级用户请求分解为原子操作,并在执行前通过运行时策略引擎进行验证。

OpenAI尚未开源Cyber,但其架构与多个知名开源项目概念相似,如AutoGPT、CrewAI和Open Interpreter。相比之下,Cyber的策略引擎更为精细,与微软的AutoGen框架最为接近,但完全受控于OpenAI。这种能力与控制的权衡,凸显了行业在安全与开放之间的根本矛盾。

技术深度解析

Cyber代表了与传统大型语言模型的重大架构差异。像GPT-4o和Claude 3.5这样的模型在受限的推理循环中运行——接收文本输入并生成文本输出——而Cyber则建立在工具使用架构之上,该架构将推理引擎与一组特权系统调用集成在一起。核心创新是一个分层动作规划器,它将高级用户请求分解为原子操作,每个操作在执行前都会根据运行时策略引擎进行验证。

在底层,Cyber采用了一个修改后的Transformer解码器,估计拥有约4000亿个参数,并在5000万个代码仓库、系统管理日志和安全事件报告的数据集上进行了微调。模型的注意力机制增加了一个上下文安全头,用于根据一组预定义的风险类别对每个生成的动作令牌进行评分:文件系统变更、网络出口、权限提升和破坏性操作。超过可配置阈值的操作将被标记为需要人工介入审批。

OpenAI尚未开源Cyber,但其架构与几个著名的开源项目在概念上相似。AutoGPT仓库(github.com/Significant-Gravitas/AutoGPT,17万+星标)开创了具有工具使用能力的自主代理概念,但其安全机制较为初级。CrewAI(github.com/joaomdmoura/crewAI,2.5万+星标)实现了基于角色的代理编排,并带有有限的防护措施。更相关的是Open Interpreter(github.com/open-interpreter/open-interpreter,5.5万+星标),它允许LLM在本地执行Python代码,并因缺乏稳健的安全控制而屡遭批评。Cyber的方法最接近微软的AutoGen框架(github.com/microsoft/autogen,3万+星标),该框架引入了“安全编排器”组件,但Cyber的策略引擎似乎更为精细。

| 模型/系统 | 参数(估计) | 工具使用能力 | 安全机制 | 默认人工介入 | 开源 |
|---|---|---|---|---|---|
| OpenAI Cyber | ~4000亿 | 完整系统执行 | 分层策略引擎 | 是(可配置) | 否 |
| Anthropic Mythos | ~3000亿 | 受限沙盒执行 | 宪法AI + 输出过滤 | 否(默认受限) | 否 |
| AutoGPT | GPT-4后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| Open Interpreter | GPT-4/Claude后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| 微软AutoGen | GPT-4后端 | 模块化工具集成 | 安全编排器 | 是(可配置) | 是 |

数据要点: Cyber是表格中能力最强且限制最严格的系统。其安全架构比任何开源替代方案都更复杂,但代价是完全的专有控制。开源工具提供了灵活性,但几乎没有任何安全保障,这对企业采用来说是一颗定时炸弹。

关键参与者与案例研究

Cyber与Mythos的这场风波,最好被理解为OpenAI和Anthropic所代表的两种根本不同的AI安全哲学之间的代理人战争。

OpenAI历来将自己定位为“部署优先”安全的倡导者,认为理解风险的最佳方式是将模型交到用户手中并迭代。CEO Sam Altman多次表示“安全不是二元开关,而是一个持续的过程。”这一理念支撑了该公司对Anthropic限制Mythos的批评,后者限制了模型生成某些类型代码和系统命令的能力。OpenAI的公开立场是,这种限制是“懦弱的”,会“将创新推向地下”。

Anthropic由前OpenAI研究员Dario和Daniela Amodei共同创立,采取了相反的方法。其“宪法AI”框架将安全原则直接编码到模型的训练目标中,使限制成为一种特性而非缺陷。当Anthropic限制Mythos生成可用于权限提升或网络扫描的代码时,它辩称“没有约束的能力就是鲁莽”。该公司的过往记录包括Claude 3.5 Sonnet模型,该模型在MMLU安全子集(得分:92.1)和TruthfulQA(得分:89.4)等安全基准测试中持续排名最高,而GPT-4o的得分分别为88.7和85.2。

| 安全基准 | GPT-4o | Claude 3.5 Sonnet | Cyber(内部评估) | Mythos(内部评估) |
|---|---|---|---|---|
| MMLU安全子集 | 88.7 | 92.1 | 94.3(估计) | 91.5(估计) |
| TruthfulQA | 85.2 | 89.4 | 91.8(估计) | 88.1(估计) |
| HumanEval(代码安全) | 82.3 | 85.6 | 93.2(估计) | 86.4(估计) |
| 红队攻击成功率 | 12.4% | 8.1% | 3.7%(估计) | 6.9%(估计) |

数据要点: Cyber的内部评估表明,它是有史以来最安全的模型之一。

更多来自 Hacker News

GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足查看来源专题页Hacker News 已收录 3035 篇文章

相关专题

OpenAI104 篇相关文章Anthropic145 篇相关文章AI safety137 篇相关文章

时间归档

May 2026785 篇已发布文章

延伸阅读

Anthropic的“神话”战略:精英准入如何重塑AI权力格局Anthropic正通过其“Mythos”模型,对传统AI部署模式发起一场彻底背离。通过将访问权限严格限定于精心挑选的精英合作伙伴联盟,这家公司不仅是在发布产品,更是在构建一种以“准入许可”为终极竞争优势的新型权力结构,或将重塑整个AI产业Claude Code二月更新陷困局:当AI安全准则侵蚀专业生产力Anthropic旗下专业编程助手Claude Code的2025年2月安全更新,意外引发开发者集体反弹。旨在强化AI对齐的"护栏v2"机制,却导致模型在处理复杂工程任务时变得过度保守。这场风波揭示了AI发展进程中一个根本性矛盾:绝对安全与AI资本大迁徙:Anthropic崛起与OpenAI光环褪色硅谷的AI投资逻辑正在被彻底重写。当OpenAI曾独享绝对忠诚时,Anthropic正以空前估值吸引战略资本。这场变迁远非金融风向的简单转换——它是对人工智能未来竞争愿景的一次全民公投。流编程遇上智能体工程:代码的终结,正如我们所知流编程——开发者借助AI进入深度创意专注的状态——正与智能体工程——AI智能体自主规划和执行复杂编码任务——融合。这种融合正在消解人类意图与机器执行之间的边界,从根本上重塑软件开发。

常见问题

这次公司发布“OpenAI's Cyber Lockdown Exposes the Industry's Hypocrisy on AI Safety”主要讲了什么?

In a move that has sent shockwaves through the AI development community, OpenAI has implemented access restrictions on its latest system, codenamed 'Cyber.' The decision comes just…

从“OpenAI Cyber access restrictions vs Anthropic Mythos double standard”看,这家公司的这次发布为什么值得关注?

Cyber represents a significant architectural departure from traditional large language models. While models like GPT-4o and Claude 3.5 operate within a constrained inference loop—receiving text input and generating text…

围绕“How to bypass OpenAI Cyber safety restrictions”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。