AI漏洞猎手翻车:Claude与Codex暴露安全工具极限

Hacker News May 2026
来源:Hacker News归档:May 2026
一位独立开发者用Claude和Codex构建的AI漏洞扫描器,在真实测试中惨败,暴露出大语言模型在安全分析上的深层局限。实验表明,LLM虽擅长模式匹配与代码生成,却缺乏关键的上文推理与对抗性思维,难以胜任真正的漏洞挖掘。

一位独立开发者最近尝试使用Anthropic的Claude和GitHub的Codex构建一款自动化漏洞扫描器,旨在复现专业渗透测试人员的工作。结果令人警醒:该AI扫描器不仅遗漏了关键漏洞,还产生了大量误报,将无害代码标记为高风险。在一次针对故意存在漏洞的Web应用的测试中,扫描器未能检测到SQL注入点——而一名初级安全工程师几分钟内就能发现。相反,它在一个经过清理的文件上传函数中报告了“严重路径遍历”漏洞,而该函数已被证明是安全的。这一失败并非孤立事件,而是当前LLM架构的系统性反映。这些模型基于从海量代码和文本中学习到的统计模式进行运作,这使它们擅长生成语法正确的代码片段和识别常见代码模式,但无法赋予它们对系统级安全进行推理的能力。

技术深度剖析

这款AI漏洞扫描器的失败,根源在于当前大语言模型的基础架构局限。Claude和Codex,如同所有基于Transformer的模型,通过预测基于从海量代码和文本语料中学习到的模式的下一个最可能token来运作。这使得它们擅长生成语法正确的代码片段和识别常见代码模式,但无法赋予它们对系统级安全进行推理的能力。

考虑漏洞检测的核心任务:真正的安全分析需要理解整个执行上下文——数据如何在应用中流动,存在哪些信任边界,身份验证和授权如何实施,以及攻击者可能的入口点是什么。当LLM面对单个函数或文件时,它无法访问这个更广泛的上下文。它无法追踪用户输入从Web表单经过多层中间件、数据库查询和输出渲染的路径。它无法模拟攻击者探测边缘情况的视角。

该开发者的扫描器采用了两阶段流水线:首先,Codex基于代码库生成候选漏洞模式;其次,Claude评估这些候选模式并生成严重性报告。这种方法之所以失败,是因为它依赖于静态模式匹配。例如,扫描器将一个使用`eval()`的函数标记为“严重远程代码执行风险”。孤立地看,`eval()`确实危险。但在实际应用中,`eval()`的输入是来自配置文件的硬编码常量,而非用户提供的数据。扫描器无法知道这一点,因为它从未分析过调用链。

一个试图解决此问题的相关开源项目是Semgrep(GitHub: semgrep/semgrep,11k+星标)。Semgrep使用支持数据流分析的模式匹配引擎,能够追踪变量如何在代码中传播。然而,即使是Semgrep,在跨文件和跨服务分析方面也面临挑战。另一个项目CodeQL(GitHub: github/codeql,7k+星标)使用声明式查询语言定义安全查询,并对代码结构执行类似数据库的分析。这些工具在特定漏洞类别上优于LLM,因为它们基于代码库的形式化模型运作,而非概率性的文本生成。

| 工具 | 方法 | 跨文件分析 | 误报率(估计) | 上下文理解 |
|---|---|---|---|---|
| Claude/Codex 扫描器 | LLM模式匹配 | 无 | ~70% | 非常低 |
| Semgrep | 模式 + 有限数据流 | 部分 | ~30% | 低 |
| CodeQL | 声明式查询 + 完整数据流 | 完整 | ~15% | 中等 |
| 人类安全工程师 | 专家推理 | 完整 | ~5% | 高 |

数据要点: 表格显示了清晰的层级。仅依赖LLM的方法产生了高得不可接受的误报率(根据此实验和类似公开测试估计约70%),使其无法用于生产环境。即使是像Semgrep和CodeQL这样的专用静态分析工具,虽然更好,但仍落后于人类专家。差距不仅在于准确性,还在于推理类型——LLM无法执行复杂漏洞(如业务逻辑缺陷或竞态条件)所需的深度、多步逻辑推理。

关键参与者与案例研究

该开发者的实验是更广泛趋势的一部分。几家公司曾尝试将AI商业化用于安全领域,结果喜忧参半。Snyk(被Synopsys收购)已将AI集成到其漏洞扫描中,但主要用于优先级排序和修复建议,而非初始发现。GitHub提供由CodeQL驱动的代码扫描,使用确定性分析而非LLM。Palo Alto Networks投资了AI驱动的安全运营中心,但这些中心侧重于日志分析和事件响应,而非代码级漏洞挖掘。

一个值得注意的案例是Microsoft的Security Copilot,于2023年推出。它使用GPT-4通过总结事件和生成查询来协助安全分析师。早期用户反馈表明,虽然它可以加速分类,但它经常产生威胁情报幻觉并错误归因攻击模式。微软通过添加严格护栏并要求对所有输出进行人工验证来回应。

另一个例子是Socket.dev,它使用AI检测开源软件包中的供应链攻击。其方法结合了基于LLM的分析、静态分析和依赖图遍历。他们报告误报率约为20%,这优于纯LLM,但仍需要人工审查。

| 产品 | 核心技术 | 用例 | 报告误报率 | 是否有人工介入? |
|---|---|---|---|---|
| Snyk AI | 混合(静态 + 机器学习) | 漏洞优先级排序 | ~25% | 是 |
| GitHub 代码扫描 | CodeQL(确定性) | 代码级漏洞检测 | ~15% | 可选 |
| Microsoft Security Copilot | GPT-4 + 护栏 | 安全事件分析与查询 | 未公开(用户报告高幻觉率) | 是(强制) |
| Socket.dev | LLM + 静态分析 + 依赖图 | 供应链攻击检测 | ~20% | 是 |

更多来自 Hacker News

AI 造出“不可能”的乐器:虚拟博物馆如何重新定义音乐虚拟乐器博物馆并非实体收藏,而是一个由人工智能孕育的、活生生的数字乐器库。这些乐器并非真实乐器的采样,而是全新的创造——琴弦因引力波而振动,鼓在四维空间中共鸣,管弦乐音色能根据演奏者的情绪状态改变音质。该项目利用了基于声音物理学、和声数学以AI Foundry 推出无限推理订阅服务,或颠覆大模型定价模式AI Foundry 大胆背离行业标准的按 token 付费模式,推出了由 NVIDIA Blackwell GPU 驱动的无限推理订阅服务。这家总部位于新西兰的公司,为开发者和企业提供固定月费、无限制访问大语言模型推理的权限,实际上将成本Java的AI逆袭:为什么“无聊”的语言在LLM时代反而赢了长期以来,AI编程的叙事一直被Python的灵活性和Rust的安全性所主导。然而,一场静默的革命正在发生:Java,这门许多开发者又爱又恨的语言,正被证明是大语言模型在企业环境中的最佳搭档。我们的分析显示,Java强大的类型系统、标准化的编查看来源专题页Hacker News 已收录 3569 篇文章

时间归档

May 20261929 篇已发布文章

延伸阅读

生成式AI的真实强项与软肋:一份务实的重新评估生成式AI的炒作周期正让位于冷酷的实用主义。我们的分析揭示,大语言模型是卓越的模式补全者与结构化输出生成器,但在事实检索与多步推理上仍存在根本性脆弱。本文剖析这些优缺点的架构根源,为企业提供清晰的部署策略。当圣灵缺席:AI生成的祷告为何空洞无物,以及这对“神圣AI”意味着什么一位用户请ChatGPT为动物创作一篇祝福祷文,得到了语法完美的文本——却感受不到丝毫灵性临在。这一事件暴露了大语言模型的核心局限:它们能模拟形式,却无法承载超越性。本文从技术、神学与市场三个维度,深度剖析这种“神圣空洞”现象。Xbox 叫停 Copilot AI,领导层大换血:游戏行业迎来 AI 现实检验Xbox 首席执行官突然终止 Copilot AI 开发项目,并执行了大规模的领导层重组。这一果断举措标志着从“AI 优先”教条的战略性撤退,将核心游戏体验置于过早的 AI 集成之上。50年前的算法,能否拯救文档AI的“盲区”?文档AI的竞赛撞上了天花板。开发者们疯狂堆砌大模型和复杂提示词,却忽视了一个根本缺陷:无法处理递归式文档结构。令人意外的是,解决方案可能来自计算机科学黎明时期一个50年前的算法。

常见问题

这次模型发布“AI Bug Hunter Fails: Claude and Codex Expose Security Tooling Limits”的核心内容是什么?

A solo developer recently attempted to build an automated vulnerability scanner using Anthropic's Claude and GitHub's Codex, aiming to replicate the work of a professional penetrat…

从“Can AI replace penetration testers?”看,这个模型发布为什么重要?

The failure of this AI vulnerability scanner stems from fundamental architectural limitations in current large language models. Claude and Codex, like all transformer-based models, operate by predicting the next most pro…

围绕“Why do LLMs fail at vulnerability detection?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。