技术深度解析
Karpathy 在世界模型与 LLM 领域的双重专长,正是 Anthropic 将其 Constitutional AI 方法落地为可操作系统的关键。在特斯拉,Karpathy 率先推动从手工编码的感知流水线转向端到端神经网络——后者直接从原始传感器数据学习驾驶行为。这涉及构建一个“世界模型”:一种对环境的习得表征,能够预测未来状态并支持规划。这与 LLM 的相似性令人惊叹:自动驾驶中的世界模型本质上是物理动力学的模拟器,而语言模型则是文本分布的模拟器。Karpathy 的洞见在于,两者都需要相同的基础能力——在不确定性下进行预测建模——并且面临相同的安全挑战:确保模型的内部表征与人类意图对齐。
Anthropic 的 Constitutional AI(CAI)方法,在其 2022 年的论文中有详细阐述,它使用一套书面原则(即“宪法”)在训练过程中指导模型行为。该过程分为两个阶段:首先是一个监督微调阶段,模型生成回复并根据宪法批评进行修订;其次是一个强化学习阶段,模型学会偏好符合宪法的输出。这与 OpenAI 的 RLHF(基于人类反馈的强化学习)有本质区别,后者依赖人类评分员提供偏好信号。CAI 的目标是通过将安全规则直接编码到训练目标中,减少对人类监督的需求。
Karpathy 的工程背景在此至关重要。CAI 虽然在理论上优雅,但在实际部署中一直面临挑战。宪法原则必须精心设计以避免漏洞,而两阶段训练过程计算成本高昂。Karpathy 在特斯拉扩展神经网络的经验——他管理过处理 PB 级驾驶数据、跨越数千块 GPU 的训练流水线——赋予他优化这些训练循环的实操能力。他还带来了大规模“红队测试”的专业知识:在特斯拉,他构建了自动化对抗测试系统,持续探测 Autopilot 神经网络的故障模式。这直接适用于 Anthropic 对系统性安全评估的需求。
一个关键的技术问题是,Karpathy 是否会推动 Anthropic 走向语言领域的“世界模型”方法。一些研究者认为,LLM 缺乏真正的理解,因为它们纯粹基于文本统计运作,没有物理现实的根基。Karpathy 曾公开倡导将“世界模型”作为通往更稳健 AI 的路径。他的 GitHub 仓库“micrograd”(一个微型自动求导引擎,8000+ 星)和“llm.c”项目(用纯 C 语言训练 LLM,25000+ 星)表明他专注于从第一性原理理解 AI 系统。在 Anthropic,他可能会推动将感官基础整合到语言模型中——也许是将文本与结构化世界表征相结合,以改进推理并减少幻觉。
| 方法 | 训练信号 | 人类监督 | 可扩展性 | 已知故障模式 |
|---|---|---|---|---|
| RLHF(OpenAI) | 人类偏好 | 高(每个样本) | 中等 | 奖励黑客、谄媚行为 |
| Constitutional AI(Anthropic) | 书面原则 | 低(一次性设定) | 高 | 原则模糊性、边缘情况 |
| 直接偏好优化(DPO) | 人类偏好 | 高(每个样本) | 高 | 分布偏移 |
| Karpathy 的混合方法(推测) | 世界模型 + CAI | 中等 | 非常高 | 模型复杂性 |
数据要点: CAI 比 RLHF 具有更好的可扩展性,因为它减少了每个样本的人类监督,但引入了围绕原则解释的新故障模式。Karpathy 的世界模型专业知识可以解决基础问题,但代价是系统复杂性增加。
关键参与者与案例研究
AI 人才市场正在经历根本性的重新调整。Karpathy 的举动是这一趋势中最引人注目的例子:顶尖研究人员正从纯能力型公司迁移到安全导向型组织。这不仅仅关乎 Anthropic——它反映了更广泛的行业转变。
OpenAI: Karpathy 共同创立的这家组织一直是能力竞赛的中心。GPT-4、GPT-4o 和 o1 推理模型不断突破性能边界。然而,围绕安全的内部动荡——包括 2023 年 Sam Altman 的短暂离职以及 Jan Leike 等安全研究人员的离开——造成了人才流失。OpenAI 的“Superalignment”团队,最初负责确保 AGI 安全,已多次重组。公司向产品化(ChatGPT、API 服务)的转型,在研究理想与商业压力之间制造了紧张关系。
Anthropic: 由前 OpenAI 员工(包括 Dario 和 Daniela Amodei)创立,Anthropic 将自己定位为安全优先的替代选择。其 Claude 模型(Claude 3.5 Sonnet、Claude 3 Opus)在多项基准测试中与 GPT-4 竞争。