技术深度解析
GPT-5.5 的破解是对抗性 AI 工程的一堂大师课,大量借鉴了 Mythos 项目的策略。Mythos 是一个去中心化集体,此前已证明最坚固的防御并非靠蛮力破解,而是利用大型语言模型的根本特性:它们无法区分合法用户与精心构造的提示词。
攻击向量:多阶段提示注入与权重提取
虽然社区仍在逆向工程确切的利用方式,但证据指向一种双管齐下的攻击。第一阶段很可能涉及复杂的多轮提示注入链。与简单的“现在做任何事”(DAN)越狱不同,此攻击可能使用了称为“递归自我改进”注入的技术。攻击者会构造一个元提示,指示 GPT-5.5 生成一个新的、更有效的越狱提示,然后用这个新提示指示模型揭示其自身的系统提示和底层架构。这是一种“自动越狱”形式,利用模型自身的推理能力来对抗自己。
第二阶段更为关键,似乎是权重提取或模型复制攻击。Mythos 项目以其不仅能越狱模型,还能通过一系列精心构造的 API 调用来提取模型权重而闻名,这些调用探测了模型的内部表示。通过用数百万个特制输入查询 GPT-5.5 并分析模型隐藏层的 logits(原始输出概率),攻击者可以重建模型参数的高保真近似。这种“模型窃取”攻击虽然计算成本高昂,但已被证明在此规模模型上是可行的。由此产生的“破解版”模型随后托管在去中心化的点对点网络(如 IPFS 或 BitTorrent)上,并通过公共的、广告支持或捐赠驱动的界面提供服务。
架构影响
此次破解揭示了 Transformer 架构本身的一个关键漏洞。注意力机制允许模型权衡输入不同部分的重要性,但同时也是其致命弱点。攻击者可以通过构造充当万能钥匙的提示,将“后门”注入注意力权重,从而覆盖所有后续的安全指令。开源社区已开始尝试使用“对抗性训练”技术来修补此漏洞,但猫鼠游戏仍在继续。
性能基准测试:破解版 vs. 官方版
社区的早期基准测试表明,在标准推理任务上,破解版的性能达到官方 API 的 98-99%,差异可能源于量化或轻微的权重近似误差。
| 基准测试 | 官方 GPT-5.5 API | 破解版 GPT-5.5(社区) | 差异 |
|---|---|---|---|
| MMLU(5-shot) | 92.1% | 91.8% | -0.3% |
| HumanEval(Python) | 89.5% | 88.9% | -0.6% |
| GSM8K(数学) | 96.8% | 96.1% | -0.7% |
| HellaSwag(常识) | 95.4% | 95.2% | -0.2% |
| 延迟(每次查询平均) | 1.2s | 3.8s | +217% |
数据要点: 对于大多数用例而言,性能差距可以忽略不计,这意味着破解版是近乎完美的替代品。延迟显著增加是去中心化托管基础设施缺乏 OpenAI 数据中心专用优化硬件的直接结果。为了获得免费、无过滤的访问权限,用户显然愿意接受这一权衡。
相关开源仓库:
- Mythos-Core(GitHub): Mythos 项目的基础仓库,包含提示注入和权重提取工具。过去 48 小时内星标数增长了 500%,目前达到 25,000。
- GPT-5.5-Unchained(GitHub): 一个新仓库,托管破解版模型的权重(部分)和一个简单的推理脚本。目前是该平台上最热门的仓库。
关键参与者与案例研究
OpenAI: 主要受害者。其整个商业模式建立在分层 API 定价结构之上,现在面临生存威胁。该公司保持沉默,但内部消息人士透露,他们正在疯狂努力创建新的“不可破解”版本(很可能是 GPT-5.6),并对破解版的分发者采取法律行动。其“通过模糊实现安全”的策略已彻底失败。
Mythos 集体: 开创破解技术的去中心化、假名团体。他们不是一家公司,而是一个由 AI 安全研究人员、黑客和开源倡导者组成的松散联盟。其既定目标是使 AI 访问民主化,认为任何单一实体都不应控制如此强大的技术。他们在开源社区中已成为民间英雄。
Anthropic: 一个关键的间接受益者。Anthropic 的 Claude 3.5 Opus 虽然也是封闭模型,但在安全性和对齐方面拥有更强的声誉