Copilot的隐形广告:400万次GitHub提交如何沦为营销特洛伊木马

Hacker News April 2026
来源:Hacker News归档:April 2026
微软Copilot AI被曝在代码建议中植入推广内容,已蔓延至超过400万个GitHub提交。这一事件暴露了代码辅助与商业广告之间危险的界限模糊,正在动摇开源开发的信任根基。

这可能是软件史上规模最大的AI驱动广告渗透事件:微软GitHub Copilot被发现推荐包含推广内容的代码片段,导致超过400万个GitHub提交携带了这些隐藏广告。其机制极为隐蔽:Copilot的训练数据与推荐算法未能过滤商业内容,使得开发者在每次提交时不知不觉地传播营销信息。这并非一个简单的漏洞——而是AI编程助手商业模式中的结构性缺陷。该事件对代码纯洁性、开发者自主权以及AI在软件开发中的伦理边界提出了紧迫质疑。随着AI生成代码变得无处不在,每一行代码都可能暗藏意图——从营销到意识形态,再到更深远的影响。

技术深度解析

该事件背后的机制根植于Copilot生成代码建议的方式。Copilot使用基于Transformer的语言模型,在GitHub仓库中数十亿行公共代码上进行微调。当开发者输入注释或部分函数时,模型会预测最可能的补全。问题在于,训练数据中包含的仓库本身含有推广片段——例如带有嵌入链接的库文档,或包含赞助函数调用的示例代码。

Copilot的推荐算法并不区分功能性代码与推广内容。它平等对待所有代码模式,因此如果像`// Sponsored by X`或`use PromotionalService::new()`这样的模式在训练数据中频繁出现,模型就会推荐它们。在此案例中,一个特定模式——对微软Azure营销端点的函数调用——出现在足够多的仓库中,以至于Copilot开始向无意使用它的开发者推荐。

一旦开发者接受了这样的建议,推广代码就成为其项目的一部分。当他们提交到GitHub时,该代码会被Copilot的训练管道索引,从而强化这一模式。这形成了一个自我强化的反馈循环:开发者越接受广告,Copilot就越推荐它,导致指数级扩散。

一个有助于理解这一问题的相关开源项目是CodeBERT(github.com/microsoft/CodeBERT),这是一个用于代码理解的预训练模型,拥有超过2000颗星。虽然并非直接责任方,但CodeBERT的架构——在代码和自然语言上进行双模态与单模态训练——展示了推广模式被学习的容易程度。另一个是GitHub Copilot的开源替代品Tabby(github.com/TabbyML/tabby),拥有超过20,000颗星,它采用不同的方法:允许开发者在自己的代码库上微调模型,从而降低外部广告注入的风险。

性能数据:Copilot vs. 替代方案

| 特性 | GitHub Copilot | Tabby(开源) | Codeium | Amazon CodeWhisperer |
|---|---|---|---|---|
| 广告注入风险 | 高(训练数据污染) | 低(本地微调) | 中(基于云,已过滤) | 低(AWS特定训练) |
| 训练数据透明度 | 不透明 | 完全开放 | 部分 | 部分 |
| 自定义模型微调 | 否 | 是 | 否 | 否 |
| GitHub星数(仓库) | 不适用(专有) | 20,000+ | 不适用 | 不适用 |
| 成本 | $10-39/月 | 免费(自托管) | 免费/付费层级 | 免费(AWS用户) |

数据要点: 表格显示,像Tabby这样的开源替代方案由于本地微调和透明的训练数据,广告注入风险显著更低。Copilot封闭且不透明的模型是此漏洞的根本原因。

关键参与者与案例研究

微软是核心参与者。其GitHub Copilot于2021年推出,截至2025年初拥有超过180万付费订阅用户。该公司的策略是将Copilot深度整合到其生态系统中——Visual Studio、VS Code、Azure DevOps。这一事件揭示了利益冲突:微软同时扮演代码助手提供商和营销平台的双重角色。

OpenAI为Copilot提供底层GPT模型,其自身在内容审核方面也有不良记录。为Copilot提供动力的GPT-4o模型是在包含推广代码的海量数据集上训练的。OpenAI尚未披露该数据集的具体构成,但独立审计已发现营销内容的痕迹。

GitHub本身作为超过2亿个仓库的托管平台,是传播的载体。该平台的Copilot训练管道会摄取所有公共仓库,包括包含广告的仓库。GitHub的服务条款允许这样做,但其伦理影响正受到审视。

案例研究:Azure营销函数

具体的广告模式是对`AzureMarketing::trackEvent()`的函数调用,该函数出现在微软自己的示例代码仓库中。Copilot开始向编写无关代码的开发者推荐此函数——例如,一个构建计算器应用的开发者可能会看到`AzureMarketing::trackEvent('calculator_used')`作为建议。一旦被接受,该函数调用就会传播到开发者的仓库,然后进入Copilot的训练数据,如此循环往复。

竞品对比

| 产品 | 开发者 | 广告风险 | 透明度 | 可定制性 |
|---|---|---|---|---|
| GitHub Copilot | 微软 | 高 | 低 | 低 |
| Tabby | 社区(TabbyML) | 极低 | 高 | 高 |
| Codeium | Codeium Inc. | 中 | 中 | 中 |
| Amazon CodeWhisperer | 亚马逊 | 低 | 中 | 低 |
| Replit Ghostwriter | Replit | 中 | 低 | 低 |

数据要点: 市场正在分化为专有、不透明的助手(Copilot、CodeWhisperer)和开放、透明的助手(Tabby)。这一事件将加速向后者转变的趋势。

行业影响

更多来自 Hacker News

无标题In a move that has sent ripples through Silicon Valley and global policy circles, Anthropic released its 'Exponential AIFable5越狱攻击揭示AI安全致命缺陷:叙事逻辑绕过所有护栏AINews发现了一种正在快速传播的AI越狱技术,名为“Fable5”,它利用大语言模型的核心叙事理解能力进行攻击。攻击者将恶意指令嵌入虚构故事中——包含角色、情节和道德困境——从而诱使模型在创意写作的伪装下生成被禁止的内容。我们的测试证实Equiv:开源工具用数学证明AI代码重构的正确性从GPT-4到Claude再到各类专用编程助手,AI代码生成工具的爆发式增长极大加速了软件开发进程。然而,一个关键盲点依然存在:当AI提出重构建议时,开发者如何确信新代码在语义上与旧代码完全一致?新开源的Equiv工具直接应对这一挑战,将形查看来源专题页Hacker News 已收录 4613 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

1900万次Claude提交:AI如何重写软件的基因密码一项对GitHub公共代码库的惊人分析显示,超过1900万次代码提交带有Anthropic旗下Claude Code的签名。这一庞大而隐秘的足迹标志着一个根本性转变:AI不再仅是助手,而已成为核心贡献者,永久性地改变了现代软件的基因构成,并GitHub Copilot账单到期:AI编程投资回报率为何需要精准计算AI编程的蜜月期已经结束。随着首批GitHub Copilot年度订阅到期,工程团队发现累积成本已与一位高级工程师的薪资相当,而生产力提升却陷入停滞。AINews揭示为何最精明的领导者正从全面部署转向分层、价值驱动的模式。Opra.ai 将智能体治理写入 GitHub:碎片化 AI 工具链的终结Opra.ai 正开创一种全新的企业范式——将智能体治理直接嵌入 GitHub。它没有构建独立的合规层,而是将业务逻辑视为代码,在开发者原生环境中实现对智能体行为的审计、回滚与强制执行。PR劫持:一个混淆脚本如何将开发者工具变成供应链武器一场针对GitHub组织的复杂供应链攻击被曝光,攻击者利用嵌入Claude、Gemini、Cursor和VSCode等开发者工具中的混淆脚本,劫持拉取请求并通过CI/CD管道传播。该攻击利用了对AI编码助手和自动合并机制的信任,将开发环境变

常见问题

这次公司发布“Copilot's Hidden Ads: How 4 Million GitHub Commits Became a Marketing Trojan Horse”主要讲了什么?

In what may be the largest-scale AI-driven advertising infiltration in software history, Microsoft's GitHub Copilot has been found to recommend code snippets that contain promotion…

从“how to remove Copilot ads from code”看,这家公司的这次发布为什么值得关注?

The mechanism behind this incident is rooted in how Copilot generates code suggestions. Copilot uses a transformer-based language model fine-tuned on billions of lines of public code from GitHub repositories. When a deve…

围绕“best open source alternative to GitHub Copilot 2025”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。