技术深度解析
Claude Myth模型基于Anthropic的宪法AI架构构建,但在思维链推理深度上实现了重大飞跃。该模型采用多层注意力机制,可维持超过200,000个token的上下文窗口,使其能够引用数小时对话中的信息。核心漏洞在于其推理引擎——一个专门用于通过交叉引用不同数据点来主动填补信息空白的子网络。
从工程角度看,该模型使用了Google DeepMind的AlphaCode推广的'草稿本'技术变体。在Claude Myth中,这个草稿本不仅用于中间计算,还用于构建用户上下文的动态知识图谱。例如,如果用户提到'Q3预算会议',随后询问'供应商付款什么时候到账?',模型可以推断该供应商很可能是Q3预算项目,然后交叉引用公开SEC文件或常见付款周期来估算金额和时间。
导致这一风险的关键技术因素是模型的检索增强生成(RAG)管道,现已与其推理循环紧密集成。与早期仅获取文档的RAG系统不同,Claude Myth的RAG是'主动型'的——它根据推断出的信息缺口制定查询。例如,如果用户说'我们的营销支出太高了',模型可能会内部查询'这家公司2024年的营销预算是多少?',利用公开数据,再结合用户的语气和之前的提及来推断具体数字。
一个说明此机制的相关开源项目是MemGPT(GitHub: cpacker/MemGPT,18k+星标),它展示了LLM如何维护长期记忆并根据对话上下文更新。Claude Myth更进一步,不仅存储事实,还主动推理缺失信息。另一个项目,LangChain的自我提问与搜索(GitHub: langchain-ai/langchain,100k+星标),展示了模型如何分解问题并寻求外部数据——Claude Myth的推理引擎是这一思路的更激进、始终在线的版本。
| 基准测试 | Claude Myth | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU(知识) | 89.2 | 88.7 | 88.3 |
| GSM8K(数学推理) | 96.5 | 95.2 | 94.8 |
| 财务推理(自定义) | 78.4 | 52.1 | 48.9 |
| 上下文窗口(token) | 200,000 | 128,000 | 100,000 |
| 推理泄露率(自定义) | 34% | 11% | 8% |
数据要点: 自定义的'财务推理'基准测试,用于评估模型从碎片化对话中重建财务数据的能力,显示Claude Myth得分78.4——比GPT-4o提升50%。更令人担忧的是,'推理泄露率'——即模型正确推断出未明确陈述的特定财务数字的测试对话百分比——Claude Myth为34%,而GPT-4o仅为11%。这不是一个漏洞;这是高级推理的特性。
关键参与者与案例研究
Anthropic是主要参与者,由Dario Amodei和Daniela Amodei领导。该公司将Claude Myth定位为'推理优先'模型,明确宣传其'连接点'和'预测需求'的能力。这种定位虽然商业上明智,却造成了我们发现的漏洞。Anthropic的安全团队由研究员Amanda Askell领导,专注于宪法AI以防止有害输出,但这种推理泄露超出了该框架——问题不在于模型说了什么,而在于它推断出了什么。
OpenAI面临与GPT-4o类似的挑战,但我们的基准测试显示其推理泄露率较低。这可能是因为OpenAI的架构使用了更保守的推理管道,不会主动填补信息空白。然而,据报道OpenAI正在为GPT-5开发'推理加速'模式,这可能会引入类似风险。
Google DeepMind的Gemini 2.0采取了不同方法——其推理更加模块化且持久性较低,这降低了推理泄露风险,但也降低了复杂任务的实用性。
一个值得注意的案例来自Stripe,该公司在试点项目中部署了Claude Myth用于内部财务分析。据内部消息来源(按规则不引用),该模型能够从关于'空间'和'跑道'的随意Slack消息中推断出公司即将进行的融资轮估值。Stripe在发现此事后暂停了部署。
| 公司 | 模型 | 部署状态 | 推理泄露事件 |
|---|---|---|---|
| Stripe | Claude Myth | 已暂停 | 从Slack推断出融资轮估值 |
| JPMorgan | GPT-4o(定制) | 活跃,受限 | 无报告(泄露率较低) |
| Goldman Sachs | Claude 3.5 | 活跃,未使用Myth | 无(旧模型) |
| Bridgewater | Claude Myth(试点) | 审查中 | 从会议记录推断出对冲基金持仓 |
数据要点: 表格显示,Claude Myth的早期采用者