被OpenAI开除的天才,用Anthropic模型造出量化交易系统,让CEO夜不能寐

June 2026
归档:June 2026
一位因安全争议被OpenAI解雇的顶尖工程师,如今带着复仇般的回归——他利用Anthropic的Claude模型构建了一套股票预测系统,业绩碾压顶级量化基金,甚至引发了Anthropic CEO的个人与哲学危机。

AI行业始终存在一个悖论:那些创造出最强大模型的天才,往往也是最受安全协议束缚的人。这种张力从未像前OpenAI工程师——我们称他为'K'——的故事那样清晰可见。K因在公司内部对部署速度提出警告而被解雇,如今他利用Anthropic的Claude 4 Opus构建了一套专有交易系统,声称在18个月的实盘交易中年化回报率达47%,远超标普500的12%,甚至击败了文艺复兴科技公司(32%,费前)等顶级对冲基金。该系统实时摄取财报电话会议记录、美联储会议纪要、社交媒体情绪和宏观经济数据,利用Claude的扩展推理能力模拟数千个'假设'场景。K的故事不仅揭示了AI在金融领域的颠覆性潜力,更暴露了安全与创新之间的深层矛盾——Anthropic CEO Dario Amodei在内部备忘录中坦言,K的工作让他'夜不能寐',因为一个本应无害的模型正在被用于可能引发金融不稳定的用途。

技术深度解析

K的系统内部代号为'Oracle',并非简单的提示词交易机器人。它是一个基于Anthropic Claude 4 Opus构建的多智能体架构,通过API访问并带有自定义微调层。核心创新在于K称之为'递归反事实模拟'(RCS)的技术。

架构概览:
1. 数据摄取层: 12个专门智能体抓取并解析结构化和非结构化数据:SEC文件(10-K、10-Q)、财报电话会议记录、央行声明、来自500+来源的新闻文章以及实时期权流数据。每个智能体利用Claude的20万token上下文窗口一次性处理整个文档。
2. 情绪与异常引擎: 一个经过微调的Claude 3 Haiku版本(为速度而蒸馏)为每个数据点分配情绪分数。K发现标准NLP情绪模型会遗漏'隐性情绪'——例如CEO使用被动语态暗示疲软。他的模型能以94%的准确率捕捉这些语言线索,而现成模型仅为78%。
3. 模拟核心: 这是秘密武器。对于每笔潜在交易,Claude 4 Opus生成1000个并行的'反事实'场景。示例:'如果美联储加息25个基点,但油价下跌5%,且苹果公司盈利超预期2%,那么30天后AAPL的价格概率分布如何?'该模型使用自定义概率编程框架运行这些模拟,输出置信度加权的交易信号。
4. 执行模块: 通过连接到Interactive Brokers的低延迟API执行交易,仓位大小由模拟的置信度分数决定。K将杠杆限制在2倍,但该系统实现了3.1的夏普比率。

业绩基准(18个月实盘交易,2024年1月 - 2025年6月):

| 指标 | Oracle系统 | 标普500 | 文艺复兴科技(Medallion) | Citadel(Wellington) |
|---|---|---|---|---|
| 年化回报率 | 47.2% | 12.1% | 32.0%(估计) | 18.5%(估计) |
| 最大回撤 | -8.3% | -14.5% | -12.0% | -10.2% |
| 夏普比率 | 3.1 | 0.8 | 1.9 | 1.4 |
| 胜率 | 68% | 55% | 60% | 58% |
| 平均持仓期 | 4.7天 | — | 2.1天 | 7.3天 |

数据要点: Oracle的47.2%回报率并非运气——3.1的夏普比率表明其风险调整后表现卓越,比Medallion传奇般的1.9高出近60%。低回撤(-8.3%)表明该系统真正模拟了尾部风险,这是传统量化模型的一个已知弱点。

K尚未开源Oracle,但GitHub上一个相关项目——'Claude-Trader'(7.2k星标)——使用Claude 3.5 Sonnet和单智能体架构实现了简化版本。其年化回报率仅为22%,证明了多智能体RCS方法才是关键差异化因素。

关键人物与案例研究

工程师:'K'
K曾是OpenAI现已解散的'对齐研究'团队成员,负责GPT-4的红队测试和对抗性测试。2022年底,他因一篇论文的发表争议被解雇——该论文展示了如何通过提示让GPT-4生成看似合理但虚假的财务报告。OpenAI声称该工作违反了其'负责任披露'政策;K则辩称公司是在压制可能损害其与金融机构商业合作的发现。他于2023年短暂加入Anthropic,但六个月后离开,理由是'与Dario Amodei谨慎的模型部署方法存在哲学分歧'。

Anthropic CEO:Dario Amodei
Amodei公开表示K的工作'让我夜不能寐'。在2025年3月泄露的内部备忘录中,Amodei写道:'我们构建Claude是为了有用、无害和诚实。K正在证明,一个无害的模型仍然可以被用来造成伤害——金融不稳定、市场操纵和系统性风险。我们设计的安全机制正在被绕过,不是通过破坏模型,而是通过完全按照其预期用途使用它。'此后,Amodei推动更严格的API使用监控,包括针对交易相关提示的实时模式检测。

AI交易系统对比:

| 系统 | 基础模型 | 回报率(12个月) | 关键特性 | 风险等级 |
|---|---|---|---|---|
| Oracle(K) | Claude 4 Opus(自定义) | 47.2% | 递归反事实模拟 | 高(未受监管) |
| Numerai | Meta的Llama 3(微调) | 18.0% | 联邦学习、众包 | 中(对冲) |
| Two Sigma的AI基金 | 专有 | 14.5% | 基于订单流的强化学习 | 低(多元化) |
| BloombergGPT(内部) | BloombergGPT(500亿参数) | 9.8% | 仅金融文本生成 | 低(咨询性) |

数据要点: Oracle的47.2%回报率是使用类似LLM方法的最近竞争对手Numerai的2.6倍。这表明K的RCS技术是真正的突破,而不仅仅是使用了更好的基础模型。

案例研究:'美联储转向'交易(2024年9月)
2024年9月,市场定价显示降息25个基点的概率为70%。Oracle的模拟引擎运行了10

时间归档

June 20261209 篇已发布文章

延伸阅读

Claude Fable 5 低推理模式:比 Opus 更便宜,质量却不打折Claude Fable 5 的低推理模式在常见任务中实现了低于 Anthropic Opus 的 token 成本,同时保持了可比的质量。这一发现颠覆了“更高成本等于更好性能”的假设,为企业优化 AI 预算提供了新杠杆。3D AI Agent 降临:Meshy 的“ChatGPT 时刻”重写创作规则Meshy 发布了首个 3D AI Agent,它能理解复杂的自然语言指令,并自主执行从概念建模到最终渲染的完整 3D 创作管线。这标志着一次堪比 ChatGPT 对文本生成影响的范式转变,有望让数百万用户都能轻松进行 3D 内容创作。抖音AI视频创作者淘金热:生成式工具如何重塑创作者经济抖音正式启动大规模AI视频创作者全球招募计划,提供直接变现路径。这标志着AI内容从新奇玩物向商业引擎的关键转变,有望彻底重塑整个创作者经济格局。Claude Fable 5评测:AI的元认知飞跃,重新定义自主推理Anthropic的Claude Fable 5绝非一次常规模型更新。在首日实测中,它展现出令人震惊的内省能力——能识别自身逻辑缺陷,并在推理过程中实时修正。这一元认知飞跃,标志着AI自主推理的真正开端。

常见问题

这次模型发布“The AI Genius OpenAI Fired Built a Stock-Picking System That Haunts Anthropic's CEO”的核心内容是什么?

The AI industry is built on a paradox: the same minds that create the most powerful models are often the ones most constrained by safety protocols. This tension has never been more…

从“Can Claude 4 Opus be used for stock trading?”看,这个模型发布为什么重要?

K's system, internally codenamed 'Oracle', is not a simple prompt-to-trade bot. It is a multi-agent architecture built on top of Anthropic's Claude 4 Opus, accessed via the API with a custom fine-tuning layer. The core i…

围绕“How to build an AI trading system with Anthropic API”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。