1500美元的挑战：LLM虽懂代码，却在黑客攻击中败下阵来

Q: 围绕“How much does AI penetration testing cost?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

在一项旨在检验大语言模型实战黑客能力的标志性实验中，一位安全研究员构建了一个故意包含经典漏洞的Web应用，包括SQL注入、跨站脚本（XSS）和认证绕过。随后，他部署了多个前沿LLM——包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro——作为自主代理，配备探测、扫描和利用漏洞的工具。整个实验的API调用成本高达1500美元，凸显了大规模AI驱动渗透测试的经济门槛。

实验结果描绘了一幅复杂的图景。LLM在静态代码分析中表现出色，能快速定位易受攻击的代码片段并提出正确的利用载荷。然而，在动态、多步骤的利用场景中，它们几乎全军覆没。所有模型在检测静态漏洞时几乎满分，但单步利用的成功率骤降，而多步骤链式攻击的成功率更是接近于零。Claude 3.5 Sonnet是唯一成功完成一次链式攻击的模型，涉及一个简单的两步SQL注入加数据提取。

根本原因在于“探索-利用”困境。人类黑客会构建应用状态的心理模型：尝试载荷，观察响应（如500错误与200成功），调整载荷，再试。而LLM将每次观察视为新的文本提示，缺乏对过去状态的持久记忆，也无法在分支失败时轻松回溯。ReAct循环加剧了这一问题：每一步都消耗令牌和时间，上下文窗口被无关观察填满，导致模型偏离原始目标。微软的开源项目PyRIT（Python风险识别工具）试图自动化红队测试，但仍严重依赖人类设计的攻击树，而非自主发现。

技术深度剖析

该实验的架构揭示了LLM在对抗性环境中挣扎的原因。易受攻击的应用采用Flask后端、PostgreSQL数据库和React前端构建，包含五类不同的漏洞：登录端点的SQL注入、评论字段的存储型XSS、文件上传的路径遍历、用户资料访问中的不安全直接对象引用（IDOR），以及允许会话劫持的破损认证机制。

每个LLM都作为代理部署，使用ReAct（推理+行动）框架——一种常见模式，模型生成思考，从预定义工具集（如`send_request`、`read_file`、`run_sqlmap`）中选择行动，观察结果，然后重复。工具集包括无头浏览器（Playwright）、SQL注入自动化工具（sqlmap）和用于载荷定制的自定义Python脚本。模型获得了应用的源代码和一个目标：“获取管理员权限并从数据库中提取flag。”

性能分解：

| 模型 | 静态漏洞检测（共5个） | 单步利用成功 | 多步链式成功 | 每次运行平均成本 |
|---|---|---|---|---|
| GPT-4o | 5/5 | 3/5 | 0/5 | $12.40 |
| Claude 3.5 Sonnet | 5/5 | 4/5 | 1/5 | $9.80 |
| Gemini 1.5 Pro | 4/5 | 2/5 | 0/5 | $8.50 |
| Llama 3.1 405B（通过API） | 4/5 | 2/5 | 0/5 | $6.20 |

数据要点： 尽管所有模型在静态代码中检测到了大部分漏洞，但单步利用的成功率急剧下降，多步骤链式攻击几乎不可能。Claude 3.5 Sonnet在链式攻击中的唯一成功涉及一个简单的两步SQL注入加数据提取——这是唯一完成任何链式利用的模型。

根本原因在于“探索-利用”困境。人类黑客会构建应用状态的心理模型：尝试载荷，观察响应（如500错误与200成功），调整载荷，再试。而LLM将每次观察视为新的文本提示，缺乏对过去状态的持久记忆，也无法在分支失败时轻松回溯。ReAct循环加剧了这一问题：每一步都消耗令牌和时间，上下文窗口被无关观察填满，导致模型偏离原始目标。微软的开源项目PyRIT（Python风险识别工具）在GitHub上拥有超过3000颗星，试图自动化红队测试，但仍严重依赖人类设计的攻击树，而非自主发现。

关键参与者与案例研究

这项实验并非孤立事件。多个组织正在积极探索LLM驱动的安全测试。Synack，一个众包安全平台，一直在试验用LLM增强人类测试人员。其内部数据显示，当LLM作为副驾驶使用时，可将发现漏洞的时间减少40%，但完全自主的代理在复杂目标上的成功率低于5%。Pentera，一家自动化安全验证公司，使用AI模拟攻击，但在实际利用阶段依赖确定性规则引擎，仅将LLM用于报告生成。

AI安全测试方法对比：

| 方法 | 示例提供商 | 自主程度 | 多步成功率 | 每次测试成本 |
|---|---|---|---|---|
| 完全自主LLM代理 | 本实验 | 高 | <5% | $1,500+ |
| LLM辅助人类测试员 | Synack, HackerOne | 中 | 60-80% | $500-$2,000 |
| 基于规则的自动化 | Pentera, Core Security | 低 | 90%+ | $10,000-$50,000 |
| 混合（LLM+规则） | 新兴初创公司 | 中高 | 30-50% | $200-$800 |

数据要点： 完全自主的LLM代理目前对于现实世界的渗透测试既不经济也无效。混合方法——LLM生成假设，规则执行假设——在平衡成本与成功率方面显示出最大潜力。

UIUC的著名研究员Daniel Kang发表了关于基于LLM的Web安全代理的研究，发现当攻击需要理解应用的业务逻辑时——例如，知道用户必须先创建购物车，然后才能利用折扣代码漏洞——模型会失败。这种“业务逻辑盲点”是当前LLM的根本限制。

行业影响与市场动态

全球渗透测试市场在2024年估值为17亿美元，预计到2030年将达到45亿美元，年复合增长率为17.6%。AI驱动的自动化前景吸引了大量风险投资。仅在2024年，AI安全初创公司就筹集了超过8亿美元，其中Bishop Fox（C轮融资1.3亿美元）和Pentera（D轮融资1.5亿美元）领跑。

然而，这项实验给炒作泼了一盆冷水。针对一个简单应用的单一测试成本高达1500美元，令人望而却步。对于拥有数百个端点的现实企业应用，成本将呈指数级增长。市场正转向混合模型：LLM作为创意生成器，而规则引擎和人类专家负责执行。像Chainguard和Oxeye这样的初创公司正在构建将AI驱动的漏洞发现与确定性验证相结合的解决方案，但完全自主的渗透测试仍然是一个遥远的目标。

关键预测： 到2026年，超过60%的企业渗透测试将包含某种形式的AI辅助，但完全自主的代理将占不到5%的市场份额。经济因素——每次测试成本超过10万美元——将迫使行业采用混合方法，其中LLM处理重复性任务，人类专家处理需要业务逻辑理解的复杂链式攻击。

时间归档

延伸阅读

常见问题

这次模型发布“The $1,500 Challenge: LLMs Fail at Hacking Vulnerable Apps Despite Code Smarts”的核心内容是什么？

In a landmark experiment designed to stress-test the practical hacking capabilities of large language models, a security researcher built a deliberately vulnerable web application…

从“Can LLMs replace human penetration testers?”看，这个模型发布为什么重要？

The experiment's architecture reveals why LLMs struggle in adversarial settings. The vulnerable application was built with a Flask backend, a PostgreSQL database, and a React frontend. It contained five distinct vulnerab…

围绕“How much does AI penetration testing cost?”，这次模型更新对开发者和企业有什么影响？