技术深度解析
Claude 发现 CVE-2026-28952 代表了多种高级 AI 能力的融合:大规模代码理解、对并发执行的因果推理,以及合成漏洞利用逻辑的能力。该漏洞本身是苹果 XNU 内核中 `vm_map_copyin` 函数的一个竞态条件,具体位于 Mach VM 子系统。该函数负责在进程间通信(IPC)期间在地址空间之间复制内存区域。当两个线程同时对重叠的内存区域调用 `vm_map_copyin` 时,就会发生竞态,导致释放后使用(use-after-free)条件,可被利用进行任意内核内存读写。
Claude 的方法与传统模糊测试或静态分析工具有根本不同。它不是生成随机输入或根据已知漏洞签名进行模式匹配,而是对内核源代码进行了语义分析。它追踪了通过 Mach IPC 层的执行路径,识别了共享页表条目周围的锁定规则(或缺乏锁定),并认识到现有的互斥锁 `vm_map_lock` 并未保护对同一映射对象的并发 `vm_map_copyin` 调用。这需要理解的不只是 C 语言和 Mach API 的语法,而是代码的*意图*——这是以往 AI 系统难以实现的认知飞跃。
实现这一壮举的架构是 Anthropic 的混合推理流水线。Claude 并非简单地生成文本;它使用一种思维链机制将问题分解为子任务:(1)识别所有 `vm_map_copyin` 的入口点,(2)枚举所有调用站点及其锁定上下文,(3)使用轻量级形式化模型模拟线程交错,(4)检查是否违反内核自身的锁定规则,以及(5)如果发现违规,构建一个最小的触发序列。这实际上是一个由神经网络驱动的符号执行引擎,Anthropic 内部一直在以代号“Project Verifier”开发这项技术。
对于研究人员和从业者来说,开源社区已经开始复制和扩展这种方法。仓库 `anthropic/vuln-hunter`(目前在 GitHub 上拥有 4,200 颗星)提供了一个使用 Claude API 对 Linux 和 FreeBSD 执行类似内核审计的框架。另一个项目 `kernel-san`(1,800 颗星)将 Claude 的输出与内核地址消毒器(KASAN)相结合,以动态验证潜在的竞态条件。这些工具仍处于实验阶段,但它们展示了 AI 驱动安全研究的快速民主化。
| 指标 | 传统人工主导审计 | Claude AI (CVE-2026-28952) | 传统模糊测试 (例如 AFL) |
|---|---|---|---|
| 发现时间 | 2-4 周(估计) | 3 小时 | 1-3 个月(如果运气好) |
| 代码覆盖率 | 内核的 15-30% | Mach VM 子系统的 85% | 40-60%(覆盖率引导) |
| 误报率 | 5-10% | 2%(经苹果验证) | 30-50% |
| 漏洞利用生成 | 手动(数天) | 自动(数分钟) | 不适用 |
| 每个漏洞的成本 | 50,000-200,000 美元 | ~500 美元(API 成本) | 10,000-50,000 美元(计算资源) |
数据要点: Claude 在此特定任务上的表现表明,与人工主导的审计相比,速度和成本效率提高了 10-100 倍,并且误报率远低于传统模糊测试。然而,这只是一个单一数据点;推广到其他操作系统内核和漏洞类别仍有待验证。
关键参与者与案例研究
Anthropic 是这里的核心参与者,但生态系统正在迅速发展。Anthropic 的策略一直是将 Claude 定位为一种“宪法 AI”,可以信任其执行安全审计等高风险任务。这一发现验证了这一赌注,但也使 Anthropic 处于微妙的境地:他们必须证明 Claude 的能力是可以控制的,并且模型本身不会构成安全风险。该公司已发布了发现过程的详细事后分析,包括使用的确切提示和模型的推理轨迹,这在业界是前所未有的。
苹果的回应虽然低调但意味深长。该公司在接到通知后 48 小时内修补了 macOS 26.5.1 中的 CVE-2026-28952——对于内核漏洞来说,这是异常快速的周转。苹果还更新了其安全赏金计划,明确将 AI 发现的漏洞纳入其中,为包含完整 AI 推理轨迹的提交提供标准赔付额 50% 的溢价。这等于默认 AI 发现的漏洞现在是一个独特的类别。
其他 AI 实验室正在竞相追赶。OpenAI 一直保持沉默,但据悉正在为 GPT-5 开发类似的能力,代号为“Codex Sentinel”。Google DeepMind 的 AlphaCode 团队已转向安全领域,发布了一篇关于“神经内核模糊测试”的论文,将强化学习与符号执行相结合。与此同时,像 Warden AI(已筹集 4500 万美元 B 轮融资)这样的初创公司