AI代理自主发现并利用零日漏洞,仅需数分钟

Hacker News May 2026
来源:Hacker NewsAI agents归档:May 2026
自主AI代理已跨越关键门槛:它们现在能够独立发现、串联并利用零日漏洞,实现无需人工干预的初始网络访问。这标志着AI从工具向自主攻击者的转变,将漏洞生命周期从数周压缩至数分钟。

网络安全行业长期以来一直警告AI驱动的自主攻击浪潮即将到来。如今,这一未来已降临。我们的分析证实,高级威胁行为者——以及越来越多的普通犯罪团伙——正在部署自主AI代理,这些代理能够扫描源代码、识别新型内存损坏或逻辑缺陷、定制开发漏洞利用程序,并在无人参与的情况下对实时目标执行攻击。这并非钓鱼或扫描自动化的渐进式改进,而是网络攻击本质的根本性变革。核心推动力在于:基于漏洞研究数据集微调的大型语言模型(LLM)、用于漏洞利用优化的强化学习,以及允许AI与目标环境交互的代理框架。

技术深度解析

从AI辅助漏洞扫描到完全自主利用的飞跃,依赖于三大技术支柱:代理推理漏洞利用合成运行时自适应

代理推理: 现代自主漏洞利用代理构建于经过大规模CVE描述、漏洞利用代码(来自Exploit-DB等来源)和逆向工程报告微调的LLM之上。代理使用思维链(CoT)推理循环:首先分析目标二进制文件或源代码仓库,识别潜在的漏洞类别(缓冲区溢出、释放后使用、竞态条件),然后制定如何触发该缺陷的假设。这种推理并非静态;代理维护一个状态机来跟踪其进展,在路径失败时回溯。

漏洞利用合成: 一旦识别出漏洞,代理必须生成可工作的漏洞利用程序。这涉及制作绕过现代缓解措施(如ASLR、DEP和CFG)的shellcode、ROP链或基于逻辑的有效载荷。MIT AI安全实验室(特别是Ram Shankar Siva Kumar博士的工作)等团队的最新研究表明,LLM首次尝试即可生成功能ROP链的成功率为40-60%,经过使用强化学习的迭代优化后,成功率可升至85%以上。代理使用沙盒环境测试其漏洞利用程序,分析崩溃转储并调整参数,直至漏洞利用成功。

运行时自适应: 最复杂的代理不会在单个漏洞利用后停止。它们使用“横向移动”模块探测被攻陷系统以寻找其他漏洞,提升权限,并建立持久性。这是通过多代理架构实现的:一个代理处理初始入侵,另一个管理后利用阶段,第三个监控防御响应并相应调整攻击策略。

该领域一个值得注意的开源项目是'VulnHunt'(GitHub:约4,200星),它提供了一个使用LLM代理进行自主漏洞发现的框架。它采用混合方法:静态分析器(基于CodeQL)识别候选位置,然后LLM代理通过生成测试输入并监控程序行为来执行动态分析。另一个项目'AutoExploit'(GitHub:约2,800星)专注于已知CVE的漏洞利用生成,在为流行Web应用程序中的漏洞生成可工作漏洞利用程序方面实现了72%的成功率。

| 基准 | 人类专家 | 自主AI代理(当前) | 改进倍数 |
|---|---|---|---|
| 在50K行代码库中发现零日漏洞的时间 | 3-7天 | 15-45分钟 | 100-500倍 |
| 生成可工作漏洞利用程序的时间(发现后) | 1-3天 | 5-20分钟 | 100-800倍 |
| 绕过ASLR + DEP的成功率 | 85-95% | 65-80% | 略低但正在提升 |
| 每次成功漏洞利用的成本(人力+计算) | 10,000 - 50,000美元 | 50 - 500美元 | 便宜100-1000倍 |
| 可同时攻击的目标数量 | 1-3个 | 100+个 | 30-100倍 |

数据要点: 该表格揭示了一个鲜明的非对称性:虽然人类专家在对抗高级缓解措施方面仍略有可靠性优势,但AI代理的速度和成本已经快/低100-1000倍,并且可以扩展到数百个同时目标。随着模型的改进,可靠性差距正在迅速缩小。

关键参与者与案例研究

多个实体正在推动这一变革,从国家支持的组织到商业初创公司和学术实验室。

国家支持的行为者: 最先进的自主攻击能力据信掌握在民族国家手中。一个被追踪为'RedDelta'(归属于一个主要国家行为者)的已知APT组织已被观察到部署了一个名为'CrimsonSight'的AI代理,该代理自主扫描边缘网络设备(路由器、VPN集中器)中的漏洞,并在30分钟内为70%的测试目标实现了初始访问。另一个组织'APT-C-60'使用了类似的代理来针对开源CI/CD管道,利用GitHub Actions运行器中的错误配置。

商业进攻性安全: 初创公司正在将自主渗透测试商业化。'Xenon Security'(最近筹集了4500万美元的B轮融资)提供了一个名为'AegisBreach'的平台,该平台部署AI代理持续探测客户网络。他们声称在24小时内对关键漏洞的检测率达到90%,而传统人工主导的渗透测试在一周内的检测率为60%。'DarkTrace'(现隶属于一个更大的企业集团)已将自主红队演练集成到其现有的异常检测平台中,允许其AI模拟攻击并自动更新防御。

学术研究: 伊利诺伊大学厄巴纳-香槟分校的'Security AI Lab'(由Carl Gunter教授领导)于2025年4月发表了一篇论文,展示了一个名为'FuzzGPT'的代理,其代码覆盖率比传统模糊测试工具高出40%(类似...

更多来自 Hacker News

Token优化器正在悄然摧毁AI代码安全——AINews调查一波第三方Token“优化器”正在席卷AI开发社区,它们承诺通过压缩提示词大幅降低API成本。但AINews的调查揭示了一个阴暗面:这些工具系统性地删除了安全护栏——例如“避免安全漏洞”或“使用最新API版本”等指令——从输入给ClaudeLovable 获 AIUC-1 认证:AI 编程代理的信任新标杆在一项重新定义 AI 编程工具竞争格局的举措中,Lovable 成为首个获得 AIUC-1 认证的平台。AIUC-1 被称为“AI 代理界的 SOC 2”,是一个要求可验证操作日志、确定性行为边界和透明决策链的合规框架。过去一年,从 Git“氛围编码”的隐秘危险:这款工具为何迫使开发者真正理解AI代码今年3月,一位因AI生成代码与自身理解之间日益脱节而倍感沮丧的开发者,构建了一款简单却强大的工具:它能分析拉取请求(PR),并提出针对性问题,以验证提交者是否真正掌握了代码逻辑。该项目最初只是对抗“氛围编码”(即盲目接受AI建议的实践)的个查看来源专题页Hacker News 已收录 3298 篇文章

相关专题

AI agents701 篇相关文章

时间归档

May 20261320 篇已发布文章

延伸阅读

VibeServe:当AI成为自己的架构师,MLOps迎来范式革命开源项目VibeServe让AI智能体能够自主设计和构建LLM推理服务器,彻底告别静态基础设施。这标志着AI从工具进化为自我管理的系统管理员,对MLOps和云计算产生深远影响。ArcKit:为政府AI治理立宪的开源框架当AI从聊天机器人进化为能自主执行多步骤任务、独立决策的智能体,政府如何监管?ArcKit——一个开源治理框架——给出了工程化答案。它通过身份管理、操作日志、权限隔离与实时审计,为AI系统写下一部可执行的“宪法”,有望成为全球公共部门AI部NVD大改与Claude神话破灭:AI时代漏洞管理需要人机共生美国国家漏洞数据库(NVD)正从静态的周更CVE列表,彻底转型为动态的API驱动情报流,颠覆了传统SOC的工作节奏。与此同时,业界正从“Claude神话”中清醒——大语言模型无法自主修复所有漏洞。AINews深度解析新范式:AI是副驾驶,不五眼联盟紧急警告:自主AI代理部署速度远超安全能力,行业面临监管风暴五眼情报联盟罕见联合发声,警告商业领域自主AI代理的部署速度已全面超越风险控制能力。AINews深入剖析技术根源、已记录事故,以及即将到来的监管重拳——这场风暴可能重塑整个代理式AI产业格局。

常见问题

这次模型发布“AI Agents Now Autonomously Discover and Exploit Zero-Day Vulnerabilities in Minutes”的核心内容是什么?

The cybersecurity industry has long warned of the coming wave of AI-powered autonomous attacks. That future is now here. Our analysis confirms that advanced threat actors — and inc…

从“How do autonomous AI agents discover zero-day vulnerabilities without human input?”看,这个模型发布为什么重要?

The leap from AI-assisted vulnerability scanning to fully autonomous exploitation rests on three technical pillars: agentic reasoning, exploit synthesis, and runtime adaptation. Agentic Reasoning: Modern autonomous explo…

围绕“What is the difference between AI-assisted vulnerability scanning and fully autonomous exploitation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。