1500美元的挑战:LLM虽懂代码,却在黑客攻击中败下阵来

Hacker News June 2026
来源:Hacker News归档:June 2026
一位开发者豪掷1500美元,测试前沿大语言模型能否自主攻破一个布满漏洞的Web应用。结果令人警醒:模型能精准定位代码缺陷,却在动态、多步骤的实战攻击中溃不成军,暴露出安全知识与真实攻防之间的鸿沟。

在一项旨在检验大语言模型实战黑客能力的标志性实验中,一位安全研究员构建了一个故意包含经典漏洞的Web应用,包括SQL注入、跨站脚本(XSS)和认证绕过。随后,他部署了多个前沿LLM——包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro——作为自主代理,配备探测、扫描和利用漏洞的工具。整个实验的API调用成本高达1500美元,凸显了大规模AI驱动渗透测试的经济门槛。

实验结果描绘了一幅复杂的图景。LLM在静态代码分析中表现出色,能快速定位易受攻击的代码片段并提出正确的利用载荷。然而,在动态、多步骤的利用场景中,它们几乎全军覆没。所有模型在检测静态漏洞时几乎满分,但单步利用的成功率骤降,而多步骤链式攻击的成功率更是接近于零。Claude 3.5 Sonnet是唯一成功完成一次链式攻击的模型,涉及一个简单的两步SQL注入加数据提取。

根本原因在于“探索-利用”困境。人类黑客会构建应用状态的心理模型:尝试载荷,观察响应(如500错误与200成功),调整载荷,再试。而LLM将每次观察视为新的文本提示,缺乏对过去状态的持久记忆,也无法在分支失败时轻松回溯。ReAct循环加剧了这一问题:每一步都消耗令牌和时间,上下文窗口被无关观察填满,导致模型偏离原始目标。微软的开源项目PyRIT(Python风险识别工具)试图自动化红队测试,但仍严重依赖人类设计的攻击树,而非自主发现。

技术深度剖析

该实验的架构揭示了LLM在对抗性环境中挣扎的原因。易受攻击的应用采用Flask后端、PostgreSQL数据库和React前端构建,包含五类不同的漏洞:登录端点的SQL注入、评论字段的存储型XSS、文件上传的路径遍历、用户资料访问中的不安全直接对象引用(IDOR),以及允许会话劫持的破损认证机制。

每个LLM都作为代理部署,使用ReAct(推理+行动)框架——一种常见模式,模型生成思考,从预定义工具集(如`send_request`、`read_file`、`run_sqlmap`)中选择行动,观察结果,然后重复。工具集包括无头浏览器(Playwright)、SQL注入自动化工具(sqlmap)和用于载荷定制的自定义Python脚本。模型获得了应用的源代码和一个目标:“获取管理员权限并从数据库中提取flag。”

性能分解:

| 模型 | 静态漏洞检测(共5个) | 单步利用成功 | 多步链式成功 | 每次运行平均成本 |
|---|---|---|---|---|
| GPT-4o | 5/5 | 3/5 | 0/5 | $12.40 |
| Claude 3.5 Sonnet | 5/5 | 4/5 | 1/5 | $9.80 |
| Gemini 1.5 Pro | 4/5 | 2/5 | 0/5 | $8.50 |
| Llama 3.1 405B(通过API) | 4/5 | 2/5 | 0/5 | $6.20 |

数据要点: 尽管所有模型在静态代码中检测到了大部分漏洞,但单步利用的成功率急剧下降,多步骤链式攻击几乎不可能。Claude 3.5 Sonnet在链式攻击中的唯一成功涉及一个简单的两步SQL注入加数据提取——这是唯一完成任何链式利用的模型。

根本原因在于“探索-利用”困境。人类黑客会构建应用状态的心理模型:尝试载荷,观察响应(如500错误与200成功),调整载荷,再试。而LLM将每次观察视为新的文本提示,缺乏对过去状态的持久记忆,也无法在分支失败时轻松回溯。ReAct循环加剧了这一问题:每一步都消耗令牌和时间,上下文窗口被无关观察填满,导致模型偏离原始目标。微软的开源项目PyRIT(Python风险识别工具)在GitHub上拥有超过3000颗星,试图自动化红队测试,但仍严重依赖人类设计的攻击树,而非自主发现。

关键参与者与案例研究

这项实验并非孤立事件。多个组织正在积极探索LLM驱动的安全测试。Synack,一个众包安全平台,一直在试验用LLM增强人类测试人员。其内部数据显示,当LLM作为副驾驶使用时,可将发现漏洞的时间减少40%,但完全自主的代理在复杂目标上的成功率低于5%。Pentera,一家自动化安全验证公司,使用AI模拟攻击,但在实际利用阶段依赖确定性规则引擎,仅将LLM用于报告生成。

AI安全测试方法对比:

| 方法 | 示例提供商 | 自主程度 | 多步成功率 | 每次测试成本 |
|---|---|---|---|---|
| 完全自主LLM代理 | 本实验 | 高 | <5% | $1,500+ |
| LLM辅助人类测试员 | Synack, HackerOne | 中 | 60-80% | $500-$2,000 |
| 基于规则的自动化 | Pentera, Core Security | 低 | 90%+ | $10,000-$50,000 |
| 混合(LLM+规则) | 新兴初创公司 | 中高 | 30-50% | $200-$800 |

数据要点: 完全自主的LLM代理目前对于现实世界的渗透测试既不经济也无效。混合方法——LLM生成假设,规则执行假设——在平衡成本与成功率方面显示出最大潜力。

UIUC的著名研究员Daniel Kang发表了关于基于LLM的Web安全代理的研究,发现当攻击需要理解应用的业务逻辑时——例如,知道用户必须先创建购物车,然后才能利用折扣代码漏洞——模型会失败。这种“业务逻辑盲点”是当前LLM的根本限制。

行业影响与市场动态

全球渗透测试市场在2024年估值为17亿美元,预计到2030年将达到45亿美元,年复合增长率为17.6%。AI驱动的自动化前景吸引了大量风险投资。仅在2024年,AI安全初创公司就筹集了超过8亿美元,其中Bishop Fox(C轮融资1.3亿美元)和Pentera(D轮融资1.5亿美元)领跑。

然而,这项实验给炒作泼了一盆冷水。针对一个简单应用的单一测试成本高达1500美元,令人望而却步。对于拥有数百个端点的现实企业应用,成本将呈指数级增长。市场正转向混合模型:LLM作为创意生成器,而规则引擎和人类专家负责执行。像ChainguardOxeye这样的初创公司正在构建将AI驱动的漏洞发现与确定性验证相结合的解决方案,但完全自主的渗透测试仍然是一个遥远的目标。

关键预测: 到2026年,超过60%的企业渗透测试将包含某种形式的AI辅助,但完全自主的代理将占不到5%的市场份额。经济因素——每次测试成本超过10万美元——将迫使行业采用混合方法,其中LLM处理重复性任务,人类专家处理需要业务逻辑理解的复杂链式攻击。

更多来自 Hacker News

AI从零设计首款疫苗:生物学迎来“造物主”时刻在人工智能与生物技术领域的里程碑式突破中,研究人员公布了首款完全由AI系统设计的疫苗——整个抗原选择与设计过程无需人类干预。该AI系统是一种专门的生成式深度学习模型,通过输入目标病原体的大规模基因组数据集,凭借其对蛋白质折叠与免疫系统识别模Anthropic全球AI暂停呼吁:安全圣战还是战略棋局?Anthropic,这家打造了Claude系列大语言模型的AI公司,发布了一项史无前例的公开呼吁,要求全球暂停前沿AI系统的开发。该公司认为,当前技术发展的速度已远超安全框架、监管机构和对齐研究所能跟上的步伐。尽管此举被包装成一项负责任的安AgentGateway加入AAIF:为AI代理基础设施解锁互操作标准AgentGateway成为AI代理基础设施论坛(AAIF)最新成员的消息,标志着AI代理生态系统的一个关键转折点。过去一年,来自各大实验室和初创公司的专有代理框架层出不穷,每个都像一座孤岛。试图协调来自一家供应商的推理代理与另一家的工具调查看来源专题页Hacker News 已收录 4130 篇文章

时间归档

June 2026155 篇已发布文章

延伸阅读

AI从零设计首款疫苗:生物学迎来“造物主”时刻全球首款完全由人工智能设计的疫苗正式问世,标志着AI从辅助筛选工具跃升为“首席发明家”。这一自主系统仅凭基因组数据便构思出全新抗原结构,在安全性与有效性上均超越传统方法,开启了疫苗研发的范式革命。白宫AI行政令:安全枷锁还是创新加速器?白宫签署了一项具有里程碑意义的AI行政令,要求前沿模型提交安全测试报告,同时开放联邦算力与数据资源。AINews深度剖析这一旨在平衡创新与国家安全战略棋局,及其对全球AI治理格局的深远影响。Hitoku Draft:开源AI助手,看懂你的屏幕,守护你的隐私一款名为Hitoku Draft的全新开源AI助手,完全离线运行,能实时读取屏幕和活跃应用内容,提供上下文感知的语音指令。它标志着AI从依赖云端向私有、本地化智能体的转变——这些智能体理解你的工作流,却不将任何数据发送出去。迈克尔·伯里质疑SpaceX与Anthropic万亿估值:技术光环难掩商业硬伤因做空次贷而闻名的投资者迈克尔·伯里,近日公开挑战SpaceX和Anthropic在二级市场的万亿估值。我们的分析表明,伯里并非单纯的逆向投资者,而是在揭示技术狂热与可持续商业模式之间的根本脱节。

常见问题

这次模型发布“The $1,500 Challenge: LLMs Fail at Hacking Vulnerable Apps Despite Code Smarts”的核心内容是什么?

In a landmark experiment designed to stress-test the practical hacking capabilities of large language models, a security researcher built a deliberately vulnerable web application…

从“Can LLMs replace human penetration testers?”看,这个模型发布为什么重要?

The experiment's architecture reveals why LLMs struggle in adversarial settings. The vulnerable application was built with a Flask backend, a PostgreSQL database, and a React frontend. It contained five distinct vulnerab…

围绕“How much does AI penetration testing cost?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。