Karpathy加入Anthropic：预训练时代终结，推理智能崛起

Andrej Karpathy决定加入Anthropic，标志着AI格局的一次地壳运动。多年来，业界痴迷于预训练规模——更大的模型、更多的数据、更长的训练周期。但这一路径的边际收益正在急剧递减。Karpathy——曾在OpenAI为GPT奠定基础、在特斯拉主导自动驾驶愿景——一直主张未来不在于蛮力计算，而在于推理效率、实时泛化与自主决策。他加入Anthropic——一家围绕安全对齐、可解释AI构建的公司——是对后训练范式强有力的背书。“堆叠GPU、缩放参数”的时代正在终结。如今重要的是模型如何思考、适应并在现实世界中自主行动。

技术深度解析

预训练指数回报的终结

Karpathy此番跳槽的核心论点是：预训练缩放定律——模型大小、数据量与计算量之间的经验关系——正在撞墙。尽管缩放从GPT-2到GPT-4推动了显著进步，但成本-性能曲线正在趋平。考虑以下基准数据：

| 模型 | 参数 | 预训练计算量 (FLOPs) | MMLU得分 | 每百万Token推理成本 |
|---|---|---|---|---|
| GPT-3 (2020) | 175B | 3.14e23 | 43.9 | $0.02 |
| GPT-4 (2023) | ~1.8T (估算) | 2.1e25 | 86.4 | $0.03 |
| Claude 3.5 Sonnet (2024) | — | ~1e25 (估算) | 88.3 | $0.003 |
| GPT-4o (2024) | ~200B (估算) | — | 88.7 | $0.005 |

数据要点： 从GPT-3到GPT-4的跃升需要大约67倍的计算量，却只换来MMLU得分2倍的提升。与此同时，Claude 3.5 Sonnet以更少的参数和更低的推理成本达到了相近的MMLU分数，证明架构与推理效率比原始规模更重要。

向推理智能的转变

Karpathy一直是他所称“推理token”的积极倡导者——在推理时分配额外计算量，以模拟思维链、自我批判和多步规划。这一方法在OpenAI的o1（前身为Q*）和Anthropic的Claude 3.5 Opus等模型中率先采用，将推理视为一等公民操作，而非大型预训练权重的涌现属性。

该范式的关键技术组件：
- 推理时计算缩放： 系统不再训练更大的模型，而是在推理时针对复杂查询动态分配更多FLOPs。这类似于人类在难题上花费更多时间。
- 蒙特卡洛树搜索 (MCTS) 用于语言模型： 受AlphaGo启发，该技术允许模型探索多条推理路径并选择最连贯的一条。Anthropic已发表关于“思维树”提示的研究，这是该技术的简化版本。
- 自监督推理循环： 模型生成用户不可见的中间“草稿”token，但引导最终输出。这已成为Claude内部架构的标准做法。

一个相关的开源项目是 `microsoft/ToT` (Tree-of-Thoughts，GitHub约15k星)，它为LLM实现了多路径推理。另一个是 `princeton-nlp/LLMReasoning` (推理数据集与评估脚本集合，约8k星)。这些仓库表明，研究社区正在积极探索纯缩放之外的替代方案。

智能体系统：从聊天机器人到自主工作者

Karpathy在特斯拉的经验——他构建了从感知到规划再到控制的完整自动驾驶流水线——直接适用于Anthropic的智能体愿景。下一代AI将不仅回答问题，还能执行多步任务：预订旅行、管理供应链、编写代码并自动测试和部署。

Anthropic的Claude已支持工具使用和函数调用，但Karpathy的专业知识将推动其更进一步。技术挑战在于构建一种“认知架构”，它结合了：
- 长期记忆 (如Pinecone或Chroma等向量数据库)
- 规划与分解 (将复杂目标拆解为子任务)
- 错误恢复 (检测子任务失败并以不同方法重试)
- 安全约束 (确保智能体即使在自主行动时也不会采取有害行为)

关键玩家与案例研究

Anthropic的战略定位

Anthropic一直押注于安全与推理，而非原始规模。其“Constitutional AI”方法训练模型基于一套原则进行自我修正，而非仅依赖人类反馈。这与Karpathy的信念——下一个前沿是“智能密度”，即模型能以更少参数和更少数据进行推理——完美契合。

| 公司 | 重点 | 关键模型 | 推理方法 | 智能体能力 |
|---|---|---|---|---|
| Anthropic | 安全对齐推理 | Claude 3.5 Opus | Constitutional AI + 思维链 | 完整工具使用，多步规划 |
| OpenAI | 通用缩放 | GPT-4o / o1 | 推理时计算缩放 (o1) | 有限工具使用，无自主智能体 |
| Google DeepMind | 研究驱动推理 | Gemini 1.5 Pro | 混合专家 + 长上下文 | 基础工具使用，实验性智能体 |
| Meta | 开源基础 | Llama 3.1 405B | 标准自回归 | 无原生智能体支持 |

数据要点： Anthropic刻意聚焦于推理与安全，而非参数数量，使其在智能体时代占据独特位置。OpenAI的o1模型是直接竞争对手，但Anthropic在安全对齐方面的领先优势可能成为企业采用中的决定性优势——在可靠性至上的场景中尤为关键。

Karpathy的履历

Karpathy的职业生涯堪称连接研究与产品的典范：

时间归档

延伸阅读

常见问题

这次公司发布“Karpathy Joins Anthropic: Pretraining Era Ends, Reasoning Intelligence Begins”主要讲了什么？

Andrej Karpathy's decision to join Anthropic marks a tectonic shift in the AI landscape. For years, the industry was obsessed with pretraining scale—bigger models, more data, longe…

从“Andrej Karpathy Anthropic salary and equity package”看，这家公司的这次发布为什么值得关注？

The core thesis behind Karpathy's move is that pretraining scaling laws—the empirical relationship between model size, data volume, and compute—are hitting a wall. While scaling has driven remarkable progress from GPT-2…

围绕“Claude agentic workflow examples enterprise use cases”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。