Anthropic员工指控特朗普政府将监管武器化，打压AI安全批评者

在独家报道中，AINews获悉，一群Anthropic现任及前员工公开指控特朗普政府将政府调查用作政治工具，以压制内部批评。这些员工声称，近期针对该公司安全协议的联邦调查并非出于真正的监管关切，而是意图惩罚那些质疑AI系统快速部署的人。争议核心围绕Anthropic的“负责任AI”使命——这一使命使其成为安全导向人才的灯塔。然而，这些员工如今发现自己成了本应保护此类言论的政府的靶子。我们的分析揭示，这绝非一次简单的合规检查，而是一场精心策划的叙事争夺战。

技术深度解析

Anthropic内部的冲突根植于一个基本的技术张力：如何以既满足内部研究人员又满足外部监管者的方式验证AI安全性。Anthropic的安全方法，特别是其Constitutional AI（CAI）和机制可解释性工作，依赖于非专家难以理解的技术。

Constitutional AI涉及训练模型（如Claude）遵循一套书面原则，但实际执行这些原则的内部表征是涌现的，无法由政府机构直接审计。据报道，特朗普政府的调查要求访问内部安全日志、红队测试结果和模型权重——Anthropic认为这些数据既涉及专有技术又具有安全敏感性。员工们认为，真正的目标是识别并惩罚那些公开主张放慢部署速度的个人，实质上是利用安全工作的技术复杂性作为政治迫害的借口。

机制可解释性是Anthropic大力投资的领域（例如他们在特征可视化和稀疏自编码器方面的工作），旨在逆向工程神经网络的内部电路。虽然具有开创性，但这项研究仍处于初期阶段。政府要求提供关于特定模型行为（如政治偏见、拒绝模式）的详细可解释性报告，这在技术上难以实现，且不暴露模型的整个架构。这造成了一个两难困境：如果Anthropic配合，就可能泄露专有技术并可能违反自身安全协议；如果抵制，则被视为妨碍合法调查。

相关开源工作：社区可以查看Neel Nanda等人开发的`transformer-lens`仓库（超过3000颗星），该仓库提供了小型模型机制可解释性的工具。Anthropic自己的开源贡献，如`sparse-autoencoder`仓库（最近更新了新的训练技术），展示了当前技术水平，但也凸显了距离完全模型透明度的遥远。政府的调查要求隐含地假设了一种尚不存在的可解释性水平，这使得调查更像是一场政治而非技术演练。

| 安全技术 | 成熟度 | 对政府的可审计性 | 政治滥用的风险 |
|---|---|---|---|
| Constitutional AI | 生产就绪 | 低（原则是高层级的） | 高（可用于针对特定输出） |
| 机制可解释性 | 研究阶段 | 非常低（需要专家知识） | 非常高（要求无法满足） |
| 红队测试 | 运营阶段 | 中等（结果是定性的） | 中等（可被定性为不足） |
| 外部审计 | 新兴阶段 | 高（如果标准化） | 低（如果独立） |

数据要点：该表格显示了一种危险的错配：对监管者来说最具政治利用价值的技术（可解释性、红队测试）恰恰是最不成熟、最主观的。这为出于政治动机的调查创造了完美环境——由于缺乏明确标准，政府可以任意定义失败。

关键角色与案例研究

Anthropic是核心角色，但其处境尤为危险。该公司由因安全担忧而离开OpenAI的前员工创立，一直以“安全第一”的替代方案为品牌定位。当前的指控可能削弱这一身份。关键人物包括：

- Dario Amodei（CEO）： 一直如履薄冰，既倡导监管又维持与政府的关系。员工的指控使他陷入两难：为员工辩护可能疏远政府；不为员工辩护则可能引发人才流失。
- 举报人： 至少五名现任及前员工组成的小组，其中一些人参与了公司的安全评估。他们向AINews提供了内部通信，显示调查范围异常广泛，并针对那些因公开谈论AI风险而知名的特定个人。

特朗普政府： 这并非首次利用监管权力打击科技批评者。政府的更广泛策略涉及利用FTC等机构以及新成立的AI安全委员会，调查被视为政治敌对的科技公司。Google因搜索结果涉嫌偏见而被调查（后撤销）的案例开创了先例。Anthropic案是这一策略首次应用于AI公司的内部安全文化。

与其他公司的比较：

| 公司 | 监管压力 | 内部异议文化 | 结果 |
|---|---|---|---|
| Anthropic | 高（当前调查） | 强（以安全为导向的创始） | 受困；人才可能流失 |

时间归档

延伸阅读

常见问题

这次公司发布“Anthropic Staff Allege Trump Admin Weaponized Regulation to Silence AI Safety Critics”主要讲了什么？

In an exclusive development, AINews has learned that a group of current and former employees at Anthropic are publicly accusing the Trump administration of using government investi…

从“anthropic employee whistleblower trump investigation”看，这家公司的这次发布为什么值得关注？

The conflict at Anthropic is rooted in a fundamental technical tension: the difficulty of verifying AI safety in a way that satisfies both internal researchers and external regulators. Anthropic's approach to safety, par…

围绕“what is constitutional ai and can it be audited”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。