技术深度解析
Cyber代表了与传统大型语言模型的重大架构差异。像GPT-4o和Claude 3.5这样的模型在受限的推理循环中运行——接收文本输入并生成文本输出——而Cyber则建立在工具使用架构之上,该架构将推理引擎与一组特权系统调用集成在一起。核心创新是一个分层动作规划器,它将高级用户请求分解为原子操作,每个操作在执行前都会根据运行时策略引擎进行验证。
在底层,Cyber采用了一个修改后的Transformer解码器,估计拥有约4000亿个参数,并在5000万个代码仓库、系统管理日志和安全事件报告的数据集上进行了微调。模型的注意力机制增加了一个上下文安全头,用于根据一组预定义的风险类别对每个生成的动作令牌进行评分:文件系统变更、网络出口、权限提升和破坏性操作。超过可配置阈值的操作将被标记为需要人工介入审批。
OpenAI尚未开源Cyber,但其架构与几个著名的开源项目在概念上相似。AutoGPT仓库(github.com/Significant-Gravitas/AutoGPT,17万+星标)开创了具有工具使用能力的自主代理概念,但其安全机制较为初级。CrewAI(github.com/joaomdmoura/crewAI,2.5万+星标)实现了基于角色的代理编排,并带有有限的防护措施。更相关的是Open Interpreter(github.com/open-interpreter/open-interpreter,5.5万+星标),它允许LLM在本地执行Python代码,并因缺乏稳健的安全控制而屡遭批评。Cyber的方法最接近微软的AutoGen框架(github.com/microsoft/autogen,3万+星标),该框架引入了“安全编排器”组件,但Cyber的策略引擎似乎更为精细。
| 模型/系统 | 参数(估计) | 工具使用能力 | 安全机制 | 默认人工介入 | 开源 |
|---|---|---|---|---|---|
| OpenAI Cyber | ~4000亿 | 完整系统执行 | 分层策略引擎 | 是(可配置) | 否 |
| Anthropic Mythos | ~3000亿 | 受限沙盒执行 | 宪法AI + 输出过滤 | 否(默认受限) | 否 |
| AutoGPT | GPT-4后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| Open Interpreter | GPT-4/Claude后端 | 完整系统执行 | 无(用户自行决定) | 否 | 是 |
| 微软AutoGen | GPT-4后端 | 模块化工具集成 | 安全编排器 | 是(可配置) | 是 |
数据要点: Cyber是表格中能力最强且限制最严格的系统。其安全架构比任何开源替代方案都更复杂,但代价是完全的专有控制。开源工具提供了灵活性,但几乎没有任何安全保障,这对企业采用来说是一颗定时炸弹。
关键参与者与案例研究
Cyber与Mythos的这场风波,最好被理解为OpenAI和Anthropic所代表的两种根本不同的AI安全哲学之间的代理人战争。
OpenAI历来将自己定位为“部署优先”安全的倡导者,认为理解风险的最佳方式是将模型交到用户手中并迭代。CEO Sam Altman多次表示“安全不是二元开关,而是一个持续的过程。”这一理念支撑了该公司对Anthropic限制Mythos的批评,后者限制了模型生成某些类型代码和系统命令的能力。OpenAI的公开立场是,这种限制是“懦弱的”,会“将创新推向地下”。
Anthropic由前OpenAI研究员Dario和Daniela Amodei共同创立,采取了相反的方法。其“宪法AI”框架将安全原则直接编码到模型的训练目标中,使限制成为一种特性而非缺陷。当Anthropic限制Mythos生成可用于权限提升或网络扫描的代码时,它辩称“没有约束的能力就是鲁莽”。该公司的过往记录包括Claude 3.5 Sonnet模型,该模型在MMLU安全子集(得分:92.1)和TruthfulQA(得分:89.4)等安全基准测试中持续排名最高,而GPT-4o的得分分别为88.7和85.2。
| 安全基准 | GPT-4o | Claude 3.5 Sonnet | Cyber(内部评估) | Mythos(内部评估) |
|---|---|---|---|---|
| MMLU安全子集 | 88.7 | 92.1 | 94.3(估计) | 91.5(估计) |
| TruthfulQA | 85.2 | 89.4 | 91.8(估计) | 88.1(估计) |
| HumanEval(代码安全) | 82.3 | 85.6 | 93.2(估计) | 86.4(估计) |
| 红队攻击成功率 | 12.4% | 8.1% | 3.7%(估计) | 6.9%(估计) |
数据要点: Cyber的内部评估表明,它是有史以来最安全的模型之一。