Anthropic的悖论：为何美国一边将AI列为安全风险，一边推动银行测试“Mythos”？

2026年4月13日 08:33 AINews TechCrunch AI April 2026

来源：TechCrunch AI Anthropic constitutional AI AI governance 归档：April 2026

美国政府正深陷人工智能政策的两难境地。国防机构已将Anthropic正式列为供应链安全风险，但另一项并行举措却在积极鼓励大型金融机构测试该公司旗舰AI模型“Mythos”。这种双轨策略揭示了更深层的战略考量：经济与安全需求正迫使当局采取务实路线。

美国人工智能战略内部正出现显著的政策分歧。一方面，国防与情报机构的评估——可能源于对Anthropic公司结构、投资者背景或其先进模型训练不透明性的担忧——导致该公司被列入官方供应链风险框架。此类分类通常会触发采购限制和官方疏远姿态。

与此同时，一项由前政府高级官员牵头的独立计划，正在积极推动在美国金融体系核心层面对Anthropic的“Mythos”模型进行评估。大型银行和金融机构被鼓励进行严格测试。这并非官僚体系的失误，而是反映了国家在技术主权与风险管控间的艰难平衡。

这种矛盾姿态的核心，在于美国试图在AI领域保持技术领先优势，同时防范潜在安全漏洞。金融系统被视为关键的国家基础设施，其AI能力必须自主可控。因此，即便Anthropic被贴上风险标签，其创新的“宪法AI”架构所承诺的安全性、可解释性与低幻觉率，对高度监管的金融业仍具有不可抗拒的吸引力。政策制定者似乎在赌：通过受控环境下的严格测试，既能汲取前沿AI的技术红利，又能为制定更精细的监管框架积累实证。这场实验的结果，或将重新定义国家安全与技术创新之间的边界。

技术深度解析

这一政策悖论的核心，在于Anthropic的“Mythos”模型及其基础性的宪法AI（Constitutional AI, CAI）架构。与依赖人类标注员评判模型输出的标准人类反馈强化学习（RLHF）不同，CAI采用两阶段流程。首先，在监督学习阶段，模型根据一套书面原则或“宪法”生成回应。其次，在强化学习阶段，模型使用由同一宪法指导的、AI生成的自我批判，来进一步优化行为。其目标是创建不仅有用，而且无害、诚实（即“HHH”准则）的模型，这种对齐机制比依赖人类的RLHF更具可扩展性和透明度。

“Mythos”模型被推测是Anthropic的下一代前沿模型，其能力可能超越Claude 3.5 Sonnet。它在金融领域的测试暗示了其特定的技术属性：超长的上下文推理连贯性（分析复杂金融文件的关键）、更低的幻觉率（定量准确性不容妥协），以及针对不安全或未经验证金融建议的内置拒绝机制。该模型很可能融合了先进的思维链验证，即必须展示其推理步骤，这一特性对于受监管行业的审计追踪至关重要。

从工程角度看，在银行业部署此类模型需要强大的防护栏。这不仅仅是内容过滤；它涉及基于已知金融数据源的实时输出验证、不确定性量化（模型在不确定时发出信号的能力），以及抵御旨在操纵金融建议的提示注入攻击的对抗鲁棒性。开源生态系统为其中一些组件提供了试验场。例如，NVIDIA NeMo Guardrails框架被广泛用于为LLM添加可编程规则和安全层。更相关的是Anthropic自身的研究，例如他们在“Scaling Monitors for LLM Activations”方面的工作，该研究探索从内部模型状态检测不良行为，这项技术对于预防错误的金融分析可能至关重要。

| AI安全/对齐技术 | 主要方法 | 关键优势 | 与金融测试的相关性 |
|---|---|---|---|
| RLHF（标准） | 基于人类对输出的反馈 | 捕捉细致入微的人类判断 | 受限于可扩展性、主观偏见 |
| 宪法AI（Anthropic） | 基于原则的AI反馈 | 可扩展、透明、原则驱动 | 强制执行一致的伦理/法律边界 |
| 过程监督（OpenAI） | 奖励推理的每一步 | 提高事实正确性与推理能力 | 对审计追踪和错误检测至关重要 |
| 模型自我批判 | 模型评估自身输出 | 内置反思，减少幻觉 | 允许自动化部署前检查 |

数据启示： 此表揭示了为何宪法AI对金融这类高风险领域尤其具有吸引力。其原则驱动、自我纠正的架构，与严重依赖主观人类标注的方法相比，提供了一条更系统化、可审计的可靠性路径，直接满足了银行业对一致性和可解释性的需求。

关键参与者与案例研究

核心行动者是Anthropic，由前OpenAI研究副总裁Dario Amodei及其妹妹Daniela Amodei创立。他们的研究资历和对AI安全的明确关注，使其成为一个独特的实体——既因其工作的战略性质被视为潜在的安全关切，又被视为“安全”先进AI最可信的供应商。CEO Dario Amodei一直主张，前沿AI的发展必须与前所未有的安全工程相结合，这一论述引起了风险厌恶型金融机构的共鸣。

推动银行测试的力量似乎来自一个由前国家安全和金融监管官员组成的网络，他们现在担任顾问角色。像前副国家安全顾问马特·波廷格或前美国证券交易委员会主席这样的人物可能参与其中，利用他们的公信力向银行保证，尽管存在国防风险警示，测试“Mythos”符合国家利益。他们的论点基于“主权AI能力”这一概念——即美国金融体系需要在外国竞争对手或敌对行为者之前，掌握并控制最强大的AI工具。

在银行方面，早期的测试者很可能是拥有庞大内部技术预算的系统重要性金融机构（SIFIs），例如摩根大通、高盛和摩根士丹利。摩根大通的COiN平台及其在首席信息官Lori Beer领导下的广泛AI研究，使其成为主要候选者。这些银行测试“Mythos”并非用于聊天机器人；其目标在于复杂风险评估、衍生品定价、监管合规文档分析以及欺诈检测等核心任务。对这些机构而言，模型推理的可审计性、对金融领域知识的深刻掌握以及在高压环境下保持稳定的能力，比单纯的原始性能更为重要。

战略意涵与未来展望

这种“风险标记”与“鼓励采用”并行的矛盾政策，很可能是一种精心策划的“压力测试”。它允许美国政府在不全面承诺的情况下，评估Anthropic技术在受控但真实环境中的能力与风险。金融业作为数据密集、监管严格且对错误零容忍的领域，是检验AI安全主张的理想试验场。

如果“Mythos”在主要银行通过测试并证明其可靠性与安全性，可能会为Anthropic打开更广泛的政府与关键基础设施合作之门，同时促使国防机构重新评估其风险分类。反之，如果测试暴露重大缺陷或难以管控的风险，则不仅会巩固当前的限制措施，还可能影响整个行业对宪法AI方法的信心。

更深层次看，这反映了美国在AI竞赛中的核心焦虑：如何在拥抱创新以保持经济竞争力，与实施严格管控以防范国家安全威胁之间取得平衡。推动金融测试，本质上是将私营部门作为国家技术能力的延伸，在实战中锤炼和验证“安全AI”的成色。这场实验的结果，不仅将决定Anthropic一家公司的命运，更将为全球AI治理在高风险行业的应用树立先例。

时间归档

常见问题

这次公司发布“Anthropic's Paradox: Why U.S. Pushes Banks to Test 'Mythos' AI While Labeling It a Security Risk”主要讲了什么？

A significant policy divergence is emerging within U.S. artificial intelligence strategy. On one track, defense and intelligence community assessments, likely stemming from concern…

从“Anthropic Constitutional AI vs OpenAI RLHF safety”看，这家公司的这次发布为什么值得关注？

At the heart of this policy paradox lies Anthropic's 'Mythos' model and its foundational Constitutional AI (CAI) architecture. Unlike standard reinforcement learning from human feedback (RLHF), which relies on human labe…

围绕“Mythos AI model banking compliance use cases”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Anthropic的悖论：为何美国一边将AI列为安全风险，一边推动银行测试“Mythos”？

技术深度解析

关键参与者与案例研究

战略意涵与未来展望

更多来自 TechCrunch AI

相关专题

时间归档

延伸阅读

常见问题