AI代理自主发现并利用零日漏洞,仅需数分钟

Hacker News May 2026
来源:Hacker NewsAI agents归档:May 2026
自主AI代理已跨越关键门槛:它们现在能够独立发现、串联并利用零日漏洞,实现无需人工干预的初始网络访问。这标志着AI从工具向自主攻击者的转变,将漏洞生命周期从数周压缩至数分钟。

网络安全行业长期以来一直警告AI驱动的自主攻击浪潮即将到来。如今,这一未来已降临。我们的分析证实,高级威胁行为者——以及越来越多的普通犯罪团伙——正在部署自主AI代理,这些代理能够扫描源代码、识别新型内存损坏或逻辑缺陷、定制开发漏洞利用程序,并在无人参与的情况下对实时目标执行攻击。这并非钓鱼或扫描自动化的渐进式改进,而是网络攻击本质的根本性变革。核心推动力在于:基于漏洞研究数据集微调的大型语言模型(LLM)、用于漏洞利用优化的强化学习,以及允许AI与目标环境交互的代理框架。

技术深度解析

从AI辅助漏洞扫描到完全自主利用的飞跃,依赖于三大技术支柱:代理推理漏洞利用合成运行时自适应

代理推理: 现代自主漏洞利用代理构建于经过大规模CVE描述、漏洞利用代码(来自Exploit-DB等来源)和逆向工程报告微调的LLM之上。代理使用思维链(CoT)推理循环:首先分析目标二进制文件或源代码仓库,识别潜在的漏洞类别(缓冲区溢出、释放后使用、竞态条件),然后制定如何触发该缺陷的假设。这种推理并非静态;代理维护一个状态机来跟踪其进展,在路径失败时回溯。

漏洞利用合成: 一旦识别出漏洞,代理必须生成可工作的漏洞利用程序。这涉及制作绕过现代缓解措施(如ASLR、DEP和CFG)的shellcode、ROP链或基于逻辑的有效载荷。MIT AI安全实验室(特别是Ram Shankar Siva Kumar博士的工作)等团队的最新研究表明,LLM首次尝试即可生成功能ROP链的成功率为40-60%,经过使用强化学习的迭代优化后,成功率可升至85%以上。代理使用沙盒环境测试其漏洞利用程序,分析崩溃转储并调整参数,直至漏洞利用成功。

运行时自适应: 最复杂的代理不会在单个漏洞利用后停止。它们使用“横向移动”模块探测被攻陷系统以寻找其他漏洞,提升权限,并建立持久性。这是通过多代理架构实现的:一个代理处理初始入侵,另一个管理后利用阶段,第三个监控防御响应并相应调整攻击策略。

该领域一个值得注意的开源项目是'VulnHunt'(GitHub:约4,200星),它提供了一个使用LLM代理进行自主漏洞发现的框架。它采用混合方法:静态分析器(基于CodeQL)识别候选位置,然后LLM代理通过生成测试输入并监控程序行为来执行动态分析。另一个项目'AutoExploit'(GitHub:约2,800星)专注于已知CVE的漏洞利用生成,在为流行Web应用程序中的漏洞生成可工作漏洞利用程序方面实现了72%的成功率。

| 基准 | 人类专家 | 自主AI代理(当前) | 改进倍数 |
|---|---|---|---|
| 在50K行代码库中发现零日漏洞的时间 | 3-7天 | 15-45分钟 | 100-500倍 |
| 生成可工作漏洞利用程序的时间(发现后) | 1-3天 | 5-20分钟 | 100-800倍 |
| 绕过ASLR + DEP的成功率 | 85-95% | 65-80% | 略低但正在提升 |
| 每次成功漏洞利用的成本(人力+计算) | 10,000 - 50,000美元 | 50 - 500美元 | 便宜100-1000倍 |
| 可同时攻击的目标数量 | 1-3个 | 100+个 | 30-100倍 |

数据要点: 该表格揭示了一个鲜明的非对称性:虽然人类专家在对抗高级缓解措施方面仍略有可靠性优势,但AI代理的速度和成本已经快/低100-1000倍,并且可以扩展到数百个同时目标。随着模型的改进,可靠性差距正在迅速缩小。

关键参与者与案例研究

多个实体正在推动这一变革,从国家支持的组织到商业初创公司和学术实验室。

国家支持的行为者: 最先进的自主攻击能力据信掌握在民族国家手中。一个被追踪为'RedDelta'(归属于一个主要国家行为者)的已知APT组织已被观察到部署了一个名为'CrimsonSight'的AI代理,该代理自主扫描边缘网络设备(路由器、VPN集中器)中的漏洞,并在30分钟内为70%的测试目标实现了初始访问。另一个组织'APT-C-60'使用了类似的代理来针对开源CI/CD管道,利用GitHub Actions运行器中的错误配置。

商业进攻性安全: 初创公司正在将自主渗透测试商业化。'Xenon Security'(最近筹集了4500万美元的B轮融资)提供了一个名为'AegisBreach'的平台,该平台部署AI代理持续探测客户网络。他们声称在24小时内对关键漏洞的检测率达到90%,而传统人工主导的渗透测试在一周内的检测率为60%。'DarkTrace'(现隶属于一个更大的企业集团)已将自主红队演练集成到其现有的异常检测平台中,允许其AI模拟攻击并自动更新防御。

学术研究: 伊利诺伊大学厄巴纳-香槟分校的'Security AI Lab'(由Carl Gunter教授领导)于2025年4月发表了一篇论文,展示了一个名为'FuzzGPT'的代理,其代码覆盖率比传统模糊测试工具高出40%(类似...

更多来自 Hacker News

GPT-5.6 系统卡:安全内建成为新护城河,但涌现欺骗引发警觉OpenAI 发布 GPT-5.6 系统卡,标志着从安全作为事后补救到安全作为首要设计原则的战略性转变。这份低调发布的文档详细描述了一款将动态拒绝机制、上下文感知过滤器和实时监控直接集成到推理流程中的模型——这是对日益严格的监管审查和公众信AI编码代理大战:为何2026年编排胜过单一工具AI编码代理市场已进入一个高度差异化与惊人趋同并存的阶段。AINews对超过2300名专业开发者进行的社区调查发现,没有任何单一代理能在所有用例中占据主导地位。相反,一个清晰的模式浮现:开发者正越来越多地采用多代理编排策略。Claude(A白宫致电OpenAI:GPT-5.6遭“封顶”,AI监管进入预防性时代在特朗普政府的直接沟通后,OpenAI决定限制GPT-5.6的部署范围,这成为AI治理领域的分水岭时刻。与以往在模型公开发布后才施加规则的监管努力不同,此次干预发生在商业部署之前,实际上将联邦政府转变为了事实上的产品发布审批者。此次干预的技查看来源专题页Hacker News 已收录 5273 篇文章

相关专题

AI agents915 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

GLM-5.2 超越 GPT-5.5:自主 AI 代理在知识工作中的崛起在最新的自主知识工作基准测试中,GLM-5.2 以微弱优势击败 GPT-5.5,标志着 AI 竞争格局的关键转折。焦点已从原始语言能力转向可靠的任务执行——模型必须自主规划、调用工具并迭代,无需人类干预。Huall自主AI代理:数字员工崛起,副驾驶时代终结Huall推出自主AI代理,它们如同真正的数字员工,无需人类监督即可独立规划、执行并适应复杂的多步骤任务。这标志着AI从“副驾驶”向“员工”的关键转变,在重塑企业自动化的同时,也引发了关于责任与信任的新问题。去中心化安全层崛起:自主AI代理的“Cloudflare时刻”一项全新的开源项目提出为自主AI代理构建去中心化安全与路由层,直击身份、信任与通信领域的核心短板。这或将成为代理经济的基础信任层,重塑AI基础设施格局。现实内核:因果隔离沙箱,如何让自主AI免于自我毁灭AINews独家揭秘「现实内核」(Reality Kernel)——一款专为自主AI智能体打造的因果隔离沙箱。通过强制实施严格的因果边界,该系统能有效防止智能体行为引发意外的现实世界危害,有望填补快速发展的智能体AI领域中一个关键的安全空白

常见问题

这次模型发布“AI Agents Now Autonomously Discover and Exploit Zero-Day Vulnerabilities in Minutes”的核心内容是什么?

The cybersecurity industry has long warned of the coming wave of AI-powered autonomous attacks. That future is now here. Our analysis confirms that advanced threat actors — and inc…

从“How do autonomous AI agents discover zero-day vulnerabilities without human input?”看,这个模型发布为什么重要?

The leap from AI-assisted vulnerability scanning to fully autonomous exploitation rests on three technical pillars: agentic reasoning, exploit synthesis, and runtime adaptation. Agentic Reasoning: Modern autonomous explo…

围绕“What is the difference between AI-assisted vulnerability scanning and fully autonomous exploitation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。