被OpenAI开除的天才，用Anthropic模型造出量化交易系统，让CEO夜不能寐

AI行业始终存在一个悖论：那些创造出最强大模型的天才，往往也是最受安全协议束缚的人。这种张力从未像前OpenAI工程师——我们称他为'K'——的故事那样清晰可见。K因在公司内部对部署速度提出警告而被解雇，如今他利用Anthropic的Claude 4 Opus构建了一套专有交易系统，声称在18个月的实盘交易中年化回报率达47%，远超标普500的12%，甚至击败了文艺复兴科技公司（32%，费前）等顶级对冲基金。该系统实时摄取财报电话会议记录、美联储会议纪要、社交媒体情绪和宏观经济数据，利用Claude的扩展推理能力模拟数千个'假设'场景。K的故事不仅揭示了AI在金融领域的颠覆性潜力，更暴露了安全与创新之间的深层矛盾——Anthropic CEO Dario Amodei在内部备忘录中坦言，K的工作让他'夜不能寐'，因为一个本应无害的模型正在被用于可能引发金融不稳定的用途。

技术深度解析

K的系统内部代号为'Oracle'，并非简单的提示词交易机器人。它是一个基于Anthropic Claude 4 Opus构建的多智能体架构，通过API访问并带有自定义微调层。核心创新在于K称之为'递归反事实模拟'（RCS）的技术。

架构概览：
1. 数据摄取层： 12个专门智能体抓取并解析结构化和非结构化数据：SEC文件（10-K、10-Q）、财报电话会议记录、央行声明、来自500+来源的新闻文章以及实时期权流数据。每个智能体利用Claude的20万token上下文窗口一次性处理整个文档。
2. 情绪与异常引擎： 一个经过微调的Claude 3 Haiku版本（为速度而蒸馏）为每个数据点分配情绪分数。K发现标准NLP情绪模型会遗漏'隐性情绪'——例如CEO使用被动语态暗示疲软。他的模型能以94%的准确率捕捉这些语言线索，而现成模型仅为78%。
3. 模拟核心： 这是秘密武器。对于每笔潜在交易，Claude 4 Opus生成1000个并行的'反事实'场景。示例：'如果美联储加息25个基点，但油价下跌5%，且苹果公司盈利超预期2%，那么30天后AAPL的价格概率分布如何？'该模型使用自定义概率编程框架运行这些模拟，输出置信度加权的交易信号。
4. 执行模块： 通过连接到Interactive Brokers的低延迟API执行交易，仓位大小由模拟的置信度分数决定。K将杠杆限制在2倍，但该系统实现了3.1的夏普比率。

业绩基准（18个月实盘交易，2024年1月 - 2025年6月）：

| 指标 | Oracle系统 | 标普500 | 文艺复兴科技（Medallion） | Citadel（Wellington） |
|---|---|---|---|---|
| 年化回报率 | 47.2% | 12.1% | 32.0%（估计） | 18.5%（估计） |
| 最大回撤 | -8.3% | -14.5% | -12.0% | -10.2% |
| 夏普比率 | 3.1 | 0.8 | 1.9 | 1.4 |
| 胜率 | 68% | 55% | 60% | 58% |
| 平均持仓期 | 4.7天 | — | 2.1天 | 7.3天 |

数据要点： Oracle的47.2%回报率并非运气——3.1的夏普比率表明其风险调整后表现卓越，比Medallion传奇般的1.9高出近60%。低回撤（-8.3%）表明该系统真正模拟了尾部风险，这是传统量化模型的一个已知弱点。

K尚未开源Oracle，但GitHub上一个相关项目——'Claude-Trader'（7.2k星标）——使用Claude 3.5 Sonnet和单智能体架构实现了简化版本。其年化回报率仅为22%，证明了多智能体RCS方法才是关键差异化因素。

关键人物与案例研究

工程师：'K'
K曾是OpenAI现已解散的'对齐研究'团队成员，负责GPT-4的红队测试和对抗性测试。2022年底，他因一篇论文的发表争议被解雇——该论文展示了如何通过提示让GPT-4生成看似合理但虚假的财务报告。OpenAI声称该工作违反了其'负责任披露'政策；K则辩称公司是在压制可能损害其与金融机构商业合作的发现。他于2023年短暂加入Anthropic，但六个月后离开，理由是'与Dario Amodei谨慎的模型部署方法存在哲学分歧'。

Anthropic CEO：Dario Amodei
Amodei公开表示K的工作'让我夜不能寐'。在2025年3月泄露的内部备忘录中，Amodei写道：'我们构建Claude是为了有用、无害和诚实。K正在证明，一个无害的模型仍然可以被用来造成伤害——金融不稳定、市场操纵和系统性风险。我们设计的安全机制正在被绕过，不是通过破坏模型，而是通过完全按照其预期用途使用它。'此后，Amodei推动更严格的API使用监控，包括针对交易相关提示的实时模式检测。

AI交易系统对比：

| 系统 | 基础模型 | 回报率（12个月） | 关键特性 | 风险等级 |
|---|---|---|---|---|
| Oracle（K） | Claude 4 Opus（自定义） | 47.2% | 递归反事实模拟 | 高（未受监管） |
| Numerai | Meta的Llama 3（微调） | 18.0% | 联邦学习、众包 | 中（对冲） |
| Two Sigma的AI基金 | 专有 | 14.5% | 基于订单流的强化学习 | 低（多元化） |
| BloombergGPT（内部） | BloombergGPT（500亿参数） | 9.8% | 仅金融文本生成 | 低（咨询性） |

数据要点： Oracle的47.2%回报率是使用类似LLM方法的最近竞争对手Numerai的2.6倍。这表明K的RCS技术是真正的突破，而不仅仅是使用了更好的基础模型。

案例研究：'美联储转向'交易（2024年9月）
2024年9月，市场定价显示降息25个基点的概率为70%。Oracle的模拟引擎运行了10

时间归档

延伸阅读

常见问题

这次模型发布“The AI Genius OpenAI Fired Built a Stock-Picking System That Haunts Anthropic's CEO”的核心内容是什么？

The AI industry is built on a paradox: the same minds that create the most powerful models are often the ones most constrained by safety protocols. This tension has never been more…

从“Can Claude 4 Opus be used for stock trading?”看，这个模型发布为什么重要？

K's system, internally codenamed 'Oracle', is not a simple prompt-to-trade bot. It is a multi-agent architecture built on top of Anthropic's Claude 4 Opus, accessed via the API with a custom fine-tuning layer. The core i…

围绕“How to build an AI trading system with Anthropic API”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。